Manual de uso

⌘K
  1. Inicio
  2. Documentos
  3. Manual de uso
  4. 9. Estado y Monitorizació...
  5. XDMod

XDMod

XDMoD (XSEDE Metrics on Demand) es una herramienta de código abierto diseñada para auditar y facilitar la utilización de infraestructuras HPC que proporciona una amplia gama de métricas sobre los recursos computacionales, incluida su utilización, el rendimiento y el impacto en la investigación. Aunque inicialmente fue una iniciativa del programa XSEDE, a partir del proyecto original se desarrolló Open XDMoD (https://xdmod.sourceforge.net) para adaptarse a cualquier entorno HPC.
La instalación de XDMod de PROTEUS está accesible en la dirección: https://gloton.ugr.es/xdmod. Debes estar en una IP de la subred de Física de la UGR para tener acceso o ponerte en contacto con el administrador.

Summary

En la página principal aparece un resumen de la información del cluster. Por defecto, muestra los datos del mes anterior, pero se puede seleccionar otro rango de fechas con los controles de arriba a la izquierda. Esta pantalla provee de información estadística sobre el número total de horas de CPU, el número de horas de CPU según el tamaño del trabajo (nº de cores), el tamaño medio del trabajo, y el número de horas de CPU agrupadas por Principal Investigator (PI).

PI

XDMod recoge las estadísticas de uso de cada usuario y las agrupa por investigador principal. En PROTEUS, cada miembro del iC1 es considerado como PI y sus usuarios asociados son sus colaboradores. De esta forma, cuando se muestra el número de horas de CPU por PI se corresponden a las horas de uso de ese PI más todas las de sus colaboradores. Puede pasar que un PI no haya usado el cluster pero tenga horas de uso, que se corresponderían a las de sus colaboradores.

Usage

En la pestaña Usage se puede obtener información en más detalle.

Con los controles de arriba a la izquierda, se puede seleccionar el intervalo de tiempo sobre el que se quiere hacer la consulta. En la columna de la izquierda aparece el conjunto de métricas que se pueden escoger. Cada una de éstas, a su vez, se puede expandir para mostrar nuevas opciones.

Ejemplo de uso: Cómo obtener estadísticas de un PI por usuario

En la pestaña Usage, seleccionar el intervalo de tiempo que se quiera consultar. En el panel de la izquierda, seleccionar la opción “Jobs by PI” y expandir el menú. Entre las nuevas opciones que aparecen, se encuentra “CPU Hours: Total“. Junto a controles para la selección de tiempo, hay un botón de filtro, con el que se puede elegir el PI. Si se hace click en la barra del PI, se muestran opciones para hacer drill down, es decir, profundizar en detalle. Seleccionar entonces User. Junto al botón de filtro se muestran opciones de visualización, como gráfico de barras, de sectores, etc. También se pueden exportar los datos como una figura o en formato CSV, por ejemplo.

 

Personalización del Dashboard

XDMod permite hacer login para personalizar los datos a mostrar en el dashboard. El primer paso es entrar (Sign in) usando las mismas credenciales que en PROTEUS. Por defecto, se asigna el role de usuario, que tiene el dashboard estándar, que incluye una lista de tus trabajos recientes (último mes), un gráfico con el uso de estos trabajos (nº de trabajos y horas de CPU), el tiempo de espera de cada cola y una medida de la eficiencia del trabajo.

Por defecto el intervalo de tiempo es de los últimos 30 días. Pasando el cursor sobre las diferentes secciones, se ofrece información adicional. En las métricas de eficiencia se muestra una escala con los colores rojo, naranja, amarillo o verde, o N/A (N/A  es para los trabajos que se borraron antes de que empezaran).

En “My Profile” puedes consultar tu role actual. En caso de ser PI, se mostrará además del uso propio, el de tus colaboradores. Si eres PI y no se refleja en tu profile, te puedes poner en contacto con el administrador para que lo corrija.

Cualquier gráfico en el Dashboard con el icono “Edit in Metric Explorer” (una rueda dentada) en la barra de título puede ser personalizado. Adicionalmente, se pueden añadir nuevos gráficos al Dashboard desde el Metric Explorer.

Ejemplo: Edición de un gráfico existente

El gráfico “Wait times by queue” por defecto no es muy útil porque solo muestra las 10 primeras colas ordenadas alfabéticamente. Mostrar el tiempo de de las colas que has usado puede ser más útil. Haciendo click en el icono mencionado, se abre dicho gráfico en la pestaña Metric Explorer. Hay una opción de “Add filter” en los que se pueden escoger las colas de interés.

Ejemplo: Crear un nuevo gráfico

Existen dos opciones para añadir un nuevo gráfico. Se puede modificar uno existente pero, en vez de usar Save, emplear Save as y darle un nombre nuevo. Esto funciona bien si no hemos de hacer demasiados cambios. Sin embargo, si quieres un gráfico diferente de los que ya existen, es más fácil empezar con un gráfico nuevo. Una vez que has creado el gráfico que querías, no olvides pulsar Save y que la opción “show in Summary Tab” esté seleccionado (pull down del gráfico situado a la derecha).

Job Performance Module

XDMoD usa la extensión SUPReMM (Systems Usage and Performance of Resources Monitoring and Modeling) para estimar la eficiencia de los trabajos. Necesita información adicional de los nodos de computación, además de la proporcionada por Slurm. Nota: XDMoD tiene datos desde que se empezó a usar Slurm (julio de 2019), pero los datos de los nodos se empezó a recoger en marzo de 2024, por lo que no hay datos de eficiencia de los trabajos anteriores a esta fecha.

 

Existen dos formas principales de acceder a la información de un trabajo. La primera es seleccionar el trabajo de la lista de trabajos  en el dashboard personalizado mencionado anteriormente; esto abrirá la pestaña “Job Viewer”. La segunda forma es seleccionar la página “Job Viewer” y usar la función de buscar para elegir el o los trabajos que se desea analizar, ya sea mediante búsqueda rápida o avanzada.

 

En la página de “Job Viewer” hay cuatro pestañas:

  • Accounting data: información sobre el trabajo, como el tiempo de ejecución o el nombre del ejecutable
  • Executable information: incluye los nodos y los cores asignados al trabajo
  • Summary metrics: información sobre cpu, memoria, E/S y uso de energía
  • Detailed metrics: aumenta la granularidad de los datos

 

¿Cómo podemos ayudarte?