Manual de uso

⌘K
  1. Inicio
  2. Documentos
  3. Manual de uso
  4. 3. Envío de trabajos
  5. Principales comandos

Principales comandos

Comando Función
sbatch Enviar trabajos no interactivos (batch) al planificador
squeue Mostrar los trabajos en la cola
scancel Cancelar un trabajo
sacct Mostrar estadísticas de la ejecución de un trabajo
srun Directiva Slurm para computación paralela
sinfo Consultar el estado de los nodos
salloc Enviar trabajos paralelos al planificador

sbatch

Envía un script a Slurm. El único parámetro obligatorio es el tiempo estimado.

Así para enviar el trabajo script.sh con una duración de 24 horas, se ejecutaría:
$ sbatch -t 24:00:00 script.sh

En caso de que el comando se ejecute con éxito, devuelve el número del trabajo (<jobid>). Ver información más detallada más adelante.

squeue

Este comando devuelve información sobre la cola de trabajos y su estado

 

Comando Función
squeue Información sobre la cola de trabajos
squeue --me Muestra solo mis trabajos
squeue -u <username> Trabajos del usuario username
squeue -j <jobid> Info del trabajo con ID jobid
squeue --start
Hora y fecha estimada de entrada en ejecución de trabajos pendientes
squeue -t RUNNING Trabajos en ejecución
squeue -t PENDING Trabajos en espera
squeue -p <partitionname> Trabajos de una determinada partición

 

Los principales estados en los que puede estar un trabajo son:

  • PD (pending)
  • R (running)
  • CA (cancelled)
  • CF (configuring)
  • CG (completing)
  • CD (completed)
  • F (failed)
  • TO (timeout)
  • NF (node failure)
  • RV (revoked)
  • SE (special exit state)

scancel

Permite cancelar trabajos

 

Comando Función
scancel <jobid> Cancelar un trabajo
scancel -t PENDING Cancelar todos los trabajos pendientes
scancel --name <jobname> Cancelar uno o más trabajos por su nombre

 

sacct

Consulta del histórico de trabajos y muestra información del uso de recursos.

 

Comando Función
sacct -u <username> Histórico de trabajos de un usuario
sacct -j <jobid> Info de un trabajo particular

 

 

srun

Usado habitualmente para ejecutar una tarea paralela dentro de un script controlado por Slurm.

 

sinfo

Proporciona información sobre los nodos y las particiones de Slurm, organizada en las siguientes columnas:

  • PARTITION: nombre de la partición
  • AVAIL: si está disponible (up) o no (down)
  • TIMELIMIT: máximo tiempo de ejecución
  • NODES: número de nodos
  • STATE: estado de esos nodos. Éste puede ser:
    • idle: disponible
    • alloc: en uso
    • mix: parte disponible, parte en uso
    • resv: reservado
    • drain/drng: no disponible por motivos técnicos

 

Las particiones son grupos de nodos que tienen las mismas características y permisos de uso. Más info.

 

Comando Función
sinfo Estado de los nodos
sinfo --format="%16P %.8m %.5a %10T %.5D %80N" Similar al anterior, pero con info expandida
sinfo -N -l Un nodo por línea, salida larga
sinfo -n <computername> -o "%n %c %m" Características de un nodo de computación
sinfo -p <partitionname> Info de una partición específica
sinfo -R Muestra los nodos no disponibles y sus motivos

 

 

scontrol

Devuelve información más detallada sobre los nodos, particiones, trabajos y configuración. Se usa para monitorizar y modificar los trabajos en cola.

 

Comando Función
scontrol show jobid  <jobid>  Info detallada de un trabajo, útil para resolver problemas
scontrol hold <jobid> Detener un trabajo en particular (sin eliminarlo)
scontrol resume <jobid> Reanudar un trabajo detenido
scontrol requeue <jobid> Volver a encolar un trabajo en particular (se cancela y se vuelve a ejecutar, equivalente a ejecutar un scancel ​ y un ​ sbatch ​ seguido)

Para información más detallada sobre comandos:​ ​ http://slurm.schedmd.com/pdfs/summary.pdf

¿Cómo podemos ayudarte?