Ciclo de vida de un trabajo Slurm
Los trabajos de Slurm pasan por las siguientes etapas:
- el usuario hace una descripción del trabajo y lo envía a Slurm (sbatch/srun)
- el trabajo pasa a la cola de trabajos y se le asigna un identificativo (ID)
- cuando hay suficientes recursos disponibles, Slurm pone el trabajo en ejecución hasta su finalización
- si se produce algún error, Slurm detiene el trabajo
- mientras está en espera o en ejecución, el usuario puede consultar su estado o cancelarlo
- se redirige la salida estándar y de errores a fichero
Estados de los trabajos
Los estados por los que pasa un trabajo durante su ciclo de vida son:
- Pending (PD): Trabajo en cola.
- Running (R): Recursos asignados y trabajo en ejecución.
- Suspended (S): Recursos asignados y trabajo suspendido.
- Completing (CG): Trabajo completado y retirado de la cola.
- Cancelled (CA): Trabajo cancelado por el usuario.
- Completed (CD): Trabajo finalizado correctamente.
- Failed (F): Ejecución finalizada incorrectamente.
- NodeFail (NF): Terminado por fallo en el nodo.
- TimeOut (TO): Terminado por alcanzar el TimeOut.