El planificador Slurm

¿Qué es Slurm?

Slurm (Simple Linux Utility for Resources Management), es un sistema de gestión de tareas usado en clústeres de computación.

Slurm realiza las siguientes acciones:

Asigna a los usuarios acceso a los nodos de cómputo durante un tiempo determinado para que puedan ejecutar sus tareas.
Proporciona un framework que permite iniciar, ejecutar y supervisar el trabajo.
Se encarga de arbitrar la disputa de recursos, administrando una cola de tareas pendientes.

Los usuarios solicitan la ejecución de sus trabajos a Slurm, y solo tienen que esperar a que finalice, sin preocuparse de si el trabajo se ha realizado en uno, dos o tres nodos de cómputo.

Principales características de Slurm

Algunas de sus características más importantes son:

Código abierto
Tolerante a fallos
Seguro
Muy escalable
Configurable: dispone de una gran cantidad de plugins fácilmente usables
Es el gestor de colas instalado en muchos de los súper computadores del TOP500

¿Cómo utilizar el gestor de colas Slurm para enviar trabajos al cluster?

Para enviar un trabajo es necesario utilizar el gestor de colas. A través de un fichero de descripción de trabajo o directamente desde línea de comandos, se indican los parámetros del trabajo, como son el nombre del ejecutable y el directorio de trabajo, los requisitos de hardware (número de procesadores, el espacio de memoria y discos necesarios, etc.), o el tiempo máximo de ejecución.

Manual de uso

¿Qué es Slurm?

Principales características de Slurm

¿Cómo utilizar el gestor de colas Slurm para enviar trabajos al cluster?

¿Cómo podemos ayudarte?