NVIDIA presenta información técnica sobre los racks NVL Blackwell GB200 y GB300, las bandejas y las iniciativas de computación abierta de MGX

NVIDIA presenta información técnica sobre los racks NVL Blackwell GB200 y GB300, las bandejas y las iniciativas de computación abierta de MGX

NVIDIA ha realizado recientemente un análisis en profundidad de sus sistemas Blackwell GB200 y GB300, centrándose en sus diseños arquitectónicos, racks, bandejas e integración con el Open Compute Project (OCP).

NVIDIA presenta las arquitecturas Blackwell y sus contribuciones a la computación abierta en Hot Chips 2025

En el evento Hot Chips 2025, NVIDIA amplió su visión de soluciones informáticas mejoradas con la introducción de la plataforma Blackwell Ultra, tras el exitoso lanzamiento de sus primeros servidores Blackwell el año pasado. El ingeniero mecánico John Norton dirigió una presentación exhaustiva que analizó los sistemas GB200 y GB300 como parte del compromiso de NVIDIA con los estándares computacionales abiertos.

La presentación comenzó con una descripción detallada de la arquitectura MGX, que NVIDIA aportó al OCP el año anterior. Norton analizó los diversos obstáculos encontrados durante el desarrollo de los modelos GB200 y GB300, destacando la versatilidad necesaria para una amplia gama de aplicaciones más allá de la IA y la inferencia.

Caso práctico de NVIDIA GB200/300 por John Norton, ingeniero mecánico. Presentación de Hot Chips 2025.

La arquitectura MGX se diseñó específicamente para abordar las complejidades de escalar aceleradores para diversas cargas de trabajo a nivel mundial. Las necesidades de los clientes variaban, desde requisitos de red únicos hasta combinaciones personalizadas de CPU y GPU. Por consiguiente, NVIDIA implementó un enfoque iterativo para el desarrollo del sistema, reconociendo que pequeños ajustes podían tener implicaciones significativas en todos los ámbitos. Esta constatación condujo al establecimiento de la arquitectura modular MGX.

Al segmentar el sistema en componentes más pequeños e interoperables, NVIDIA permite a los clientes modificar elementos individuales sin tener que reestructurar todo el sistema. Este enfoque innovador no solo optimiza la inversión inicial, sino que también promueve una plataforma flexible y abierta a través de OCP, lo que fomenta las personalizaciones personalizadas.

Introducción a MGX: Arquitectura modular escalable centrada en GPU para soluciones de computación acelerada.

Norton analizó en profundidad dos componentes críticos del marco MGX: la infraestructura de rack MGX y las bandejas de cómputo y conmutación MGX, fundamentales para el ensamblaje de los sistemas GB200 «Blackwell».El uso de estándares de diseño abiertos por parte de NVIDIA permite transparencia y accesibilidad. Ofrecen modelos y especificaciones completos disponibles para su descarga a través de OCP.

Especificaciones de bandeja y bastidor informático MGX con diseño modular para contribuciones OCP.

Durante la presentación, NVIDIA compartió las especificaciones generales de las plataformas GB200 y GB300. El diseño del rack incluye conmutadores en la parte superior, seguidos de una fuente de alimentación que convierte la CA de alto voltaje del centro de datos en CC para su distribución por todo el sistema.

Disposición en rack del sistema GB200/300 con columna NVLINK y fuentes de alimentación.

La configuración GB200 incorpora 300 chips distribuidos en 10 bandejas de cómputo, complementadas con nueve bandejas de conmutación y otras ocho bandejas de cómputo. Sorprendentemente, cada bandeja de cómputo puede proporcionar 80 petaflops de FP4, lo que contribuye a un rendimiento general de 1, 4 exaflops. El consumo de energía del sistema completo es de aproximadamente 120 kilovatios, y cada bandeja de cómputo utiliza alrededor de 7 kilovatios, interconectada mediante la red NVLink.

Diagrama de descripción general del rack GB200/300, que muestra las dimensiones y características para la implementación empresarial.

El NVLink opera a una impresionante velocidad de 200 Gb/s por línea, lo que facilita las comunicaciones de baja latencia entre las bandejas de GPU y de conmutación. Esta interconexión de cobre destaca las ventajas de las propiedades del cobre para la transferencia de datos de alto ancho de banda.

Diagrama del sistema NVLINK Spine y de enfriamiento líquido para mejorar la eficiencia del centro de datos.

NVIDIA también presentó su enfoque para las especificaciones de rack. Al implementar dispositivos con una separación de 48 milímetros (ligeramente más estrecha que la separación tradicional de 44, 5 milímetros utilizada para el hardware empresarial estándar), la compañía maximiza la densidad de nodos en sus racks, lo que genera numerosas ventajas operativas.

Diagrama de 19 beneficios de RU para computación eficiente y densidad de cableado en centros de datos.

También se abordó un diseño mejorado de barra colectora capaz de manejar aproximadamente 35 kilovatios, ampliado para soportar hasta 1.400 amperios mediante una sección transversal de cobre mejorada, lo que facilita mayores requisitos de energía.

Diagrama de topología PCIe de bandeja de cómputo NVL NVIDIA GB200/300 para conexión 2P:4GPU.

Cada bandeja de cómputo integra dos CPU y cuatro GPU, e incorpora un Módulo de Procesador Host (HPM) compatible con una CPU Grace y dos GPU Blackwell. Su diseño innovador permite opciones de conectividad flexibles, lo que garantiza una integración fluida de los sistemas de E/S.

Diagrama de bandejas de computación acelerada MGX con componentes etiquetados.

Las bandejas también cuentan con configuraciones personalizables para diversas soluciones de enfriamiento y opciones de gestión de cables, lo que enfatiza la modularidad de la plataforma para aplicaciones específicas.

Diagrama de bandeja de conmutación de bandejas de computación acelerada MGX con componentes destacados detallados.

La parte posterior de la bandeja de cómputo está equipada con desconexiones rápidas universales (UQD), que están estandarizadas por OCP y admiten refrigeración líquida completa para una mayor eficiencia.

Evolución de la arquitectura del centro de datos con NVLINK Fusion y tecnología de refrigeración avanzada.

En conclusión, NVIDIA ha confirmado que los sistemas GB200 y GB300 ya están en plena producción, implementados en diversos centros de datos de hiperescala a nivel mundial. Continúan innovando anualmente, mejorando la densidad, la eficiencia energética y las soluciones de refrigeración, con iniciativas como NVLink Fusion que prometen avances significativos en las capacidades de procesamiento de datos.

Fuente e imágenes

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *