Microsoft presenta la nueva arquitectura de la superfábrica de IA de Azure

Microsoft anuncia un nuevo centro de datos de Azure AI en Atlanta.

Hoy, Microsoft ha presentado oficialmente sus planes para un nuevo centro de datos de Azure AI en Atlanta, Georgia. Esta instalación de vanguardia estará interconectada con el centro de Fairwater, ubicado en Wisconsin, y contará con varios superordenadores de Azure AI. El objetivo es desarrollar un centro de datos de IA integral a escala planetaria, capaz de gestionar de forma eficiente una amplia gama de tareas de IA.

El diseño innovador revoluciona los centros de datos de IA

Aprovechando la experiencia adquirida en la construcción de centros de datos diseñados a medida para las necesidades de entrenamiento de OpenAI y otras aplicaciones de IA, Microsoft afirma haber transformado la arquitectura de los centros de datos de IA. El nuevo diseño de centro de datos de IA presenta una estructura de red plana que aprovecha la potencia computacional de numerosas GPU NVIDIA GB200 y GB300, lo que permite un rendimiento sin precedentes.

Características clave del nuevo centro de datos

El próximo centro de datos de Atlanta introducirá varias características innovadoras que lo distinguirán de sus predecesores:

Alta densidad de GPU: Racks diseñados a medida y dispuestos de forma óptima para la máxima colocación de GPU, lo que minimiza la latencia y mejora la intercomunicación de las GPU.
Refrigeración líquida de circuito cerrado: Un innovador ecosistema de refrigeración sellado que conserva el agua, utilizando el mismo suministro durante más de seis años con una evaporación mínima, promoviendo la sostenibilidad al tiempo que admite computación de alta densidad.
Suministro de energía robusto: Con una impresionante potencia de ~140 kW por rack y ~1, 36 MW por fila, esta configuración está diseñada para dar cabida a aceleradores de próxima generación sin encontrar restricciones de energía convencionales.
Redes planas de alto ancho de banda: Este diseño, que incorpora una arquitectura Ethernet de dos niveles que ofrece conectividad GPU de 800 Gbps junto con redes basadas en SONiC, busca minimizar los costos, la complejidad y la dependencia de proveedores específicos.
Optimización de red adaptada a las aplicaciones: Funciones como la gestión de paquetes en tiempo real y el equilibrio de carga sofisticado garantizan que los grandes clústeres de GPU sigan estando altamente utilizados.
Red WAN de IA a escala planetaria: La conexión de múltiples sitios, incluidos Atlanta y Wisconsin, a través de una red troncal óptica dedicada de baja latencia, crea una “supercomputadora” cohesiva que abarca regiones.
Modelo de energía resiliente: Este enfoque utiliza redes eléctricas locales robustas para mejorar la confiabilidad, incorporando soluciones de almacenamiento de energía para adaptarse a las variaciones en los requisitos de energía de la carga de trabajo.
Soporte versátil para cargas de trabajo de IA: La infraestructura está diseñada para ejecutar de manera efectiva una variedad de tareas de IA, que van desde el preentrenamiento y el ajuste fino hasta el aprendizaje por refuerzo, la inferencia y la generación de datos sintéticos, en una plataforma unificada.

Posicionamiento para la demanda futura en cargas de trabajo de IA

Al establecer una supercomputadora unificada multirregional, Microsoft se está posicionando estratégicamente para satisfacer la creciente demanda asociada con los flujos de trabajo de IA a gran escala que se prevén en los próximos años.

Fuente e imágenes