¿Qué son las particiones de Slurm?
Las particiones son una especie de colas. Cada partición tiene sus propias características, como por ejemplo el número máximo de recursos que se pueden reservar o el tiempo máximo de ejecución. De acuerdo con las necesidades del trabajo, lo mandaremos a una partición o a otra.
Es necesario conocer las particiones disponibles en PROTEUS para elegir aquellas que mejor se adapten a nuestros trabajos. Puedes encontrar más información aquí.
Por defecto, se usará la partición con los nodos más modernos
El total de los nodos de PROTEUS están agrupados por propiedades comunes o funcionalidad en varias colas o particiones. Estas particiones son divisiones lógicas y no tienen nada que ver con las familias de procesadores.
Las particiones son una característica del gestor de colas SLURM. Cada partición tiene una serie de atributos que definen y limitan el comportamiento de los trabajos que corren en ella. Cada nodo pertenece a una o varias particiones.
PARTICIONES EN PROTEUS
Actualmente, PROTEUS tiene 2 particiones, y éstas se diferencian por su tiempo máximo de ejecución:
TIMELIMIT | DEFAULT TIME | NODOS | |
---|---|---|---|
short | 3 días | 3 días | 6 |
calypso16G | 180 días | 7 días | 22 |
calypso08G | 180 días | 7 días | 16 |
kratos96G | 180 días | 7 días | 4 |
kratos48G | 180 días | 7 días | 38 |
hermesv1 | 180 días | 7 días | 12 |
hermesv2 | 180 días | 7 días | 4 |
hermesBigMem | 180 días | 7 días | 1 |
metis* | 180 días | 7 días | 40 |
metisBigMem | 180 días | 7 días | 1 |
GPGPU | 30 días | Ninguno | 1 |
TIMELIMIT es el máximo tiempo de ejecución de un trabajo. Pasado ese tiempo, si no ha terminado, el trabajo es cancelado.
DEFAULT TIME es el tiempo que se asigna por defecto al trabajo. Se puede indicar un tiempo distinto (siempre menor que TIMELIMIT), si se tiene una estimación del tiempo de ejecución. Superado dicho tiempo, el trabajo se cancela. Indicar un tiempo de ejecución puede ayudar a SLURM a hacer una planificación más eficiente de los trabajos.
metis es la partición por defecto. Si no se indica partición en el script de SLURM, el trabajo irá a esa cola.
La partición short está pensada para programas cortos. Se han reservado nodos para esta partición con la intención de que haya disponibilidad para este tipo de trabajos y no tengan que esperar a trabajos de mayor duración.
La función de la partición GPGPU es ejecutar trabajos que requieran del uso de las GPUs del cluster. Puedes encontrar más información aquí.
Se puede consultar la lista de particiones y sus propiedades con:
sinfo
el cual devuelve las siguientes columnas:
- PARTITION: nombre de la partición
- AVAIL: si está disponible (up) o no (down)
- TIMELIMIT: máximo tiempo de ejecución
- NODES: número de nodos
- STATE: estado de esos nodos. Éste puede ser:
- idle: disponible
- alloc: en uso
- mix: parte disponible, parte en uso
- resv: reservado
- drain/drng: no disponible por motivos técnicos
Esta lista de particiones puede ser modificada en el futuro, por lo que se recomienda visitar esta página con cierta frecuencia.