Particiones

El total de los nodos de PROTEUS están agrupados por propiedades comunes o funcionalidad en varias colas o particiones. Estas particiones son divisiones lógicas y no tienen nada que ver con las familias de procesadores.

Las particiones son una característica del gestor de colas SLURM. Cada partición tiene una serie de atributos que definen y limitan el comportamiento de los trabajos que corren en ella. Cada nodo pertenece a una o varias particiones. Cuando se envía un trabajo, éste va

Actualmente, PROTEUS tiene 2 particiones, las cuales se diferencian por su tiempo máximo de ejecución:

TIMELIMITDEFAULT TIMENODOS
short3 días3 díasmetis (6)
htc-general*90 días90 díascalypso, kratos, hermes, metis
Particiones en PROTEUS

htc-general es la partición por defecto. Si no se indica partición en el script de SLURM, el trabajo irá a esa cola.

TIMELIMIT es el máximo tiempo de ejecución de un trabajo. Pasado ese tiempo, si no ha terminado, el trabajo es cancelado.

DEFAULT TIME es el tiempo que se asigna por defecto al trabajo. Se puede indicar un tiempo distinto (siempre menor que TIMELIMIT), si se tiene una estimación del tiempo de ejecución. Superado dicho tiempo, el trabajo se cancela. Indicar un tiempo de ejecución puede ayudar a SLURM a hacer una planificación más eficiente de los trabajos.

La partición short está pensada para programas cortos. Se han reservado nodos para esta partición con la intención de que haya disponibilidad para este tipo de trabajos y no tengan que esperar a trabajos de mayor duración.

La partición long-preempt, en cambio, es la apropiada para trabajos de muy larga duración (varios meses). Hay que tener en cuenta que el trabajo tiene que tener algún mecanismo que le permita retomar la tarea por donde la dejó en caso de fallo (corte eléctrico, caída de nodo, etc.)

Se puede consultar la lista de particiones y sus propiedades con

sinfo

el cual devuelve las siguientes columnas:

  • PARTITION: nombre de la partición
  • AVAIL: si está disponible (up) o no (down)
  • TIMELIMIT: máximo tiempo de ejecución
  • NODES: número de nodos
  • STATE: estado de esos nodos. Éste puede ser:
    • idle: disponible
    • alloc: en uso
    • mix: parte disponible, parte en uso
    • resv: reservado
    • drain/drng: no disponible por motivos técnicos

Esta lista de particiones puede ser modificada en el futuro, por lo que se recomienda visitar esta página con cierta frecuencia.