Comprender el consumo energético del cluster es fundamental para optimizar el uso de recursos y minimizar el impacto ambiental. El consumo no es simplemente la suma del consumo de varios ordenadores; la densidad de componentes, la física del calor y la infraestructura de soporte juegan un papel crucial.
1. La Densidad de Componentes
Nuestro cluster está compuesto por nodos de alto rendimiento. Cada nodo alberga una cantidad significativa de componentes, lo que impacta directamente en el consumo energético.
- Consumo por componentes: Los componentes modernos de alto rendimiento requieren una gran cantidad de energía.
- GPUs: Una GPU de última generación, utilizada para IA o simulaciones, puede consumir hasta 700W.
- CPUs:Las CPUs actuales consumen alrededor de 500W.
- Consumo Máximo por Nodo: Un nodo con dos CPUs y dos GPUs puede consumir cerca de 2400W, superando el consumo de un horno común, por ejemplo.
- Transferencia de datos: El transporte de grandes volúmenes de datos (terabytes) entre la memoria RAM, el almacenamiento y los procesadores requiere energía considerable
2. El sobrecoste de la refrigeración
La electricidad que entra en un chip se convierte en calor que es necesario disipar. La refrigeración es, por tanto, un factor crítico y un importante consumidor de energía.
-
Resistencia eléctrica: La resistencia eléctrica al flujo de corriente en los circuitos de silicio genera calor. La disipación de este calor es esencial para evitar daños permanentes a los componentes.
-
PUE (Power Usage Effectiveness): Históricamente, para cada vatio dedicado al cálculo, se necesita otro vatio adicional para refrigeración. Un PUE de 2.0 indica que el consumo energético total es el doble de la energía utilizada para el cálculo. El objetivo es reducir el PUE.
3. Funcionamiento 24/7
A diferencia de un portátil que suspendes al terminar el día, un clúster científico está diseñado para funcionar al 100% de carga las 24 horas del día, los 365 días del año.
-
Cargas Sostenidas: Las simulaciones científicas, como la dinámica molecular, la astrofísica o la simulación de nuevos materiales, suelen mantener los núcleos del sistema al máximo rendimiento durante periodos prolongados. No hay periodos de «descanso» donde el hardware pueda enfriarse.
-
Infraestructura Crítica (SAIs/UPS): Para asegurar la integridad de las simulaciones, especialmente las de larga duración, el cluster está respaldado por sistemas de alimentación ininterrumpida (SAIs/UPS). Estos sistemas, aunque vitales para la disponibilidad, experimentan pérdidas de energía inherentes a su funcionamiento.