Comando | Función |
---|---|
sbatch |
Enviar trabajos no interactivos (batch) al planificador |
squeue |
Mostrar los trabajos en la cola |
scancel |
Cancelar un trabajo |
sacct |
Mostrar estadísticas de la ejecución de un trabajo |
srun |
Directiva Slurm para computación paralela |
sinfo |
Consultar el estado de los nodos |
salloc |
Enviar trabajos paralelos al planificador |
sbatch
Envía un script a Slurm. El único parámetro obligatorio es el tiempo estimado.
Así para enviar el trabajo script.sh
con una duración de 24 horas, se ejecutaría:
$ sbatch -t 24:00:00 script.sh
En caso de que el comando se ejecute con éxito, devuelve el número del trabajo (<jobid>). Ver información más detallada más adelante.
squeue
Este comando devuelve información sobre la cola de trabajos y su estado
Comando | Función |
---|---|
squeue |
Información sobre la cola de trabajos |
squeue --me |
Muestra solo mis trabajos |
squeue -u <username> |
Trabajos del usuario username |
squeue -j <jobid> |
Info del trabajo con ID jobid |
squeue --start |
Hora y fecha estimada de entrada en ejecución de trabajos pendientes |
squeue -t RUNNING |
Trabajos en ejecución |
squeue -t PENDING |
Trabajos en espera |
squeue -p <partitionname> |
Trabajos de una determinada partición |
Los principales estados en los que puede estar un trabajo son:
- PD (pending)
- R (running)
- CA (cancelled)
- CF (configuring)
- CG (completing)
- CD (completed)
- F (failed)
- TO (timeout)
- NF (node failure)
- RV (revoked)
- SE (special exit state)
scancel
Permite cancelar trabajos
Comando | Función |
---|---|
scancel <jobid> |
Cancelar un trabajo |
scancel -t PENDING |
Cancelar todos los trabajos pendientes |
scancel --name <jobname> |
Cancelar uno o más trabajos por su nombre |
sacct
Consulta del histórico de trabajos y muestra información del uso de recursos.
Comando | Función |
---|---|
sacct -u <username> |
Histórico de trabajos de un usuario |
sacct -j <jobid> |
Info de un trabajo particular |
srun
Usado habitualmente para ejecutar una tarea paralela dentro de un script controlado por Slurm.
sinfo
Proporciona información sobre los nodos y las particiones de Slurm, organizada en las siguientes columnas:
- PARTITION: nombre de la partición
- AVAIL: si está disponible (up) o no (down)
- TIMELIMIT: máximo tiempo de ejecución
- NODES: número de nodos
- STATE: estado de esos nodos. Éste puede ser:
- idle: disponible
- alloc: en uso
- mix: parte disponible, parte en uso
- resv: reservado
- drain/drng: no disponible por motivos técnicos
Las particiones son grupos de nodos que tienen las mismas características y permisos de uso. Más info.
Comando | Función |
---|---|
sinfo |
Estado de los nodos |
sinfo --format="%16P %.8m %.5a %10T %.5D %80N" |
Similar al anterior, pero con info expandida |
sinfo -N -l |
Un nodo por línea, salida larga |
sinfo -n <computername> -o "%n %c %m" |
Características de un nodo de computación |
sinfo -p <partitionname> |
Info de una partición específica |
sinfo -R |
Muestra los nodos no disponibles y sus motivos |
scontrol
Devuelve información más detallada sobre los nodos, particiones, trabajos y configuración. Se usa para monitorizar y modificar los trabajos en cola.
Comando | Función |
---|---|
scontrol show jobid <jobid> |
Info detallada de un trabajo, útil para resolver problemas |
scontrol hold <jobid> |
Detener un trabajo en particular (sin eliminarlo) |
scontrol resume <jobid> |
Reanudar un trabajo detenido |
scontrol requeue <jobid> |
Volver a encolar un trabajo en particular (se cancela y se vuelve a ejecutar, equivalente a ejecutar un scancel y un sbatch seguido) |
Para información más detallada sobre comandos: http://slurm.schedmd.com/pdfs/summary.pdf