Monitorización del cluster

En el Instituto Carlos I de Física Teórica y Computacional contamos con varias herramientas que ayudan a conocer el estado de PROTEUS y su carga de trabajo. Es útil conocer esta información a la hora de planificar el envío de nuevos trabajos. También nos permiten conocer datos más detallados sobre la ejecución de los programas.

Ganglia #

Monitorización general

_
Muestra el estado general del clúster, como el nº total de nodos y de CPUs, su carga de trabajo, uso de RAM, tráfico de red, temperatura, etc. Se muestra desglosado en familias de nodos.
Xdmod. Monitorización y estadísticas PROTEUS
_

Xdmod #

Estadísticas de uso PROTEUS

Incluye nº trabajos, horas CPU, usuarios, etc. También permite acceso identificado para tener una visión más detallada de los recursos consumidos por los trabajos del usuario. Debido a la sensibilidad de los datos, requiere conectarse desde la Red-UGR, por lo que se realiza un check de IP al acceder.

Monitorización específica. #

También pueden obtenerse algunos datos estadísticos directamente desde Slurm. Algunos de los comandos más útiles relativos a estos datos son:

  • squeue –start ​ : Muestra la hora estimada de comienzo de los trabajos en espera.
  • sqstat : ​ Muestra información detallada de las colas y la utilización global del equipo. Para utilizarlo hay que
    añadir las siguientes variables de entorno:export STUBL_HOME=/opt/cesga/sistemas/stubl-0.0.9/
    export PATH=$PATH:$STUBL_HOME/bin
  • smap ​: muestra un diagrama con la distribución de los trabajos en el equipo, agrupados por rack.
_

¿Necesitas más información?

_