
NVIDIA ha realizado recientemente un análisis en profundidad de sus sistemas Blackwell GB200 y GB300, centrándose en sus diseños arquitectónicos, racks, bandejas e integración con el Open Compute Project (OCP).
NVIDIA presenta las arquitecturas Blackwell y sus contribuciones a la computación abierta en Hot Chips 2025
En el evento Hot Chips 2025, NVIDIA amplió su visión de soluciones informáticas mejoradas con la introducción de la plataforma Blackwell Ultra, tras el exitoso lanzamiento de sus primeros servidores Blackwell el año pasado. El ingeniero mecánico John Norton dirigió una presentación exhaustiva que analizó los sistemas GB200 y GB300 como parte del compromiso de NVIDIA con los estándares computacionales abiertos.
La presentación comenzó con una descripción detallada de la arquitectura MGX, que NVIDIA aportó al OCP el año anterior. Norton analizó los diversos obstáculos encontrados durante el desarrollo de los modelos GB200 y GB300, destacando la versatilidad necesaria para una amplia gama de aplicaciones más allá de la IA y la inferencia.

La arquitectura MGX se diseñó específicamente para abordar las complejidades de escalar aceleradores para diversas cargas de trabajo a nivel mundial. Las necesidades de los clientes variaban, desde requisitos de red únicos hasta combinaciones personalizadas de CPU y GPU. Por consiguiente, NVIDIA implementó un enfoque iterativo para el desarrollo del sistema, reconociendo que pequeños ajustes podían tener implicaciones significativas en todos los ámbitos. Esta constatación condujo al establecimiento de la arquitectura modular MGX.
Al segmentar el sistema en componentes más pequeños e interoperables, NVIDIA permite a los clientes modificar elementos individuales sin tener que reestructurar todo el sistema. Este enfoque innovador no solo optimiza la inversión inicial, sino que también promueve una plataforma flexible y abierta a través de OCP, lo que fomenta las personalizaciones personalizadas.

Norton analizó en profundidad dos componentes críticos del marco MGX: la infraestructura de rack MGX y las bandejas de cómputo y conmutación MGX, fundamentales para el ensamblaje de los sistemas GB200 «Blackwell».El uso de estándares de diseño abiertos por parte de NVIDIA permite transparencia y accesibilidad. Ofrecen modelos y especificaciones completos disponibles para su descarga a través de OCP.

Durante la presentación, NVIDIA compartió las especificaciones generales de las plataformas GB200 y GB300. El diseño del rack incluye conmutadores en la parte superior, seguidos de una fuente de alimentación que convierte la CA de alto voltaje del centro de datos en CC para su distribución por todo el sistema.

La configuración GB200 incorpora 300 chips distribuidos en 10 bandejas de cómputo, complementadas con nueve bandejas de conmutación y otras ocho bandejas de cómputo. Sorprendentemente, cada bandeja de cómputo puede proporcionar 80 petaflops de FP4, lo que contribuye a un rendimiento general de 1, 4 exaflops. El consumo de energía del sistema completo es de aproximadamente 120 kilovatios, y cada bandeja de cómputo utiliza alrededor de 7 kilovatios, interconectada mediante la red NVLink.

El NVLink opera a una impresionante velocidad de 200 Gb/s por línea, lo que facilita las comunicaciones de baja latencia entre las bandejas de GPU y de conmutación. Esta interconexión de cobre destaca las ventajas de las propiedades del cobre para la transferencia de datos de alto ancho de banda.

NVIDIA también presentó su enfoque para las especificaciones de rack. Al implementar dispositivos con una separación de 48 milímetros (ligeramente más estrecha que la separación tradicional de 44, 5 milímetros utilizada para el hardware empresarial estándar), la compañía maximiza la densidad de nodos en sus racks, lo que genera numerosas ventajas operativas.

También se abordó un diseño mejorado de barra colectora capaz de manejar aproximadamente 35 kilovatios, ampliado para soportar hasta 1.400 amperios mediante una sección transversal de cobre mejorada, lo que facilita mayores requisitos de energía.

Cada bandeja de cómputo integra dos CPU y cuatro GPU, e incorpora un Módulo de Procesador Host (HPM) compatible con una CPU Grace y dos GPU Blackwell. Su diseño innovador permite opciones de conectividad flexibles, lo que garantiza una integración fluida de los sistemas de E/S.

Las bandejas también cuentan con configuraciones personalizables para diversas soluciones de enfriamiento y opciones de gestión de cables, lo que enfatiza la modularidad de la plataforma para aplicaciones específicas.

La parte posterior de la bandeja de cómputo está equipada con desconexiones rápidas universales (UQD), que están estandarizadas por OCP y admiten refrigeración líquida completa para una mayor eficiencia.

En conclusión, NVIDIA ha confirmado que los sistemas GB200 y GB300 ya están en plena producción, implementados en diversos centros de datos de hiperescala a nivel mundial. Continúan innovando anualmente, mejorando la densidad, la eficiencia energética y las soluciones de refrigeración, con iniciativas como NVLink Fusion que prometen avances significativos en las capacidades de procesamiento de datos.
Deja una respuesta