Monitorización del cluster

PROTEUS cuenta con diversas herramientas que ayudan a conocer su estado y carga de trabajo. Es útil conocer esta información a la hora de planificar el envío de nuevos trabajos. También nos permiten conocer información más detallada sobre los recursos que ha usado un trabajo en su ejecución.

Ganglia

Monitorización general

Muestra el estado general del clúster, como el nº total de nodos y de CPUs, su carga de trabajo, uso de RAM, tráfico de red, temperatura, etc. Se muestra desglosado en familias de nodos.

Ganglia ReportGanglia Report

Xdmod

Estadísticas de uso PROTEUS

Incluye nº trabajos, horas CPU, usuarios, etc. También permite acceso identificado para tener una visión más detallada de los recursos consumidos por los trabajos del usuario. Debido a la sensibilidad de los datos, requiere conectarse desde la Red-UGR, por lo que se realiza un check de IP al acceder.

Xdmod StatisticsXdmod Statistics

Slurm

Herramientas de uso del gestor de colas

También pueden obtenerse algunos datos estadísticos directamente desde Slurm. Algunos de los comandos más útiles relativos a estos datos son:

squeue –start : Muestra la hora estimada de comienzo de los trabajos en espera.
sacct y seff: Ver siguiente sección

Manual de uso

Ganglia

Xdmod

Slurm

¿Cómo podemos ayudarte?