
Microsoft ha hecho un anuncio importante sobre su plataforma Azure: presenta su primer clúster de producción a gran escala que integra las GPU de vanguardia GB300 «Blackwell Ultra» de NVIDIA. Este avance está diseñado específicamente para gestionar modelos de IA extremadamente grandes.
NVIDIA GB300 “Blackwell Ultra”: Mejora del entrenamiento de IA en la plataforma Azure de Microsoft
El marco de Azure se ha actualizado para incluir Blackwell Ultra, con una sólida implementación de más de 4600 GPU basadas en la avanzada arquitectura NVL72 GB300 de NVIDIA. Esta configuración utiliza la tecnología de interconexión InfiniBand de vanguardia, lo que aumenta significativamente la capacidad de Microsoft para implementar cientos de miles de GPU Blackwell Ultra en sus centros de datos globales, todas dedicadas a cargas de trabajo de IA.
El primer clúster de supercomputación @nvidia GB300 NVL72 a gran escala del mundo para cargas de trabajo de IA ya está disponible en Microsoft Azure. La implementación conecta más de 4600 GPU NVIDIA Blackwell Ultra mediante la red InfiniBand de última generación, diseñada para entrenar e implementar modelos de IA avanzados más rápido que… pic.twitter.com/CmmDtcrlwn
— Microsoft Azure (@Azure) 9 de octubre de 2025
Según Microsoft, la implementación del clúster de Azure equipado con GPU NVIDIA GB300 NVL72 «Blackwell Ultra» puede reducir drásticamente los tiempos de entrenamiento de modelos, de varios meses a tan solo semanas. Este avance permite el entrenamiento de modelos compuestos por cientos de billones de parámetros. NVIDIA también ha demostrado un rendimiento líder en métricas de inferencia, como lo demuestran numerosas pruebas de rendimiento de MLPerf y las recientes pruebas de IA de InferenceMAX.
Las máquinas virtuales (VM) de Azure ND GB300 v6, recientemente lanzadas, están optimizadas para diversas aplicaciones avanzadas, como modelos de razonamiento, sistemas de IA con agentes y tareas de IA generativa multimodal. Cada rack de esta infraestructura alberga 18 VM, cada una equipada con 72 GPU. Las siguientes especificaciones destacan su rendimiento:
- 72 GPU NVIDIA Blackwell Ultra combinadas con 36 CPU NVIDIA Grace.
- Ancho de banda de escalamiento entre racks de 800 gigabits por segundo (Gbps) a través de NVIDIA Quantum-X800 InfiniBand de última generación.
- 130 terabytes (TB) por segundo de ancho de banda NVIDIA NVLink por rack.
- 37 TB de memoria de alta velocidad.
- Hasta 1.440 petaflops (PFLOPS) de rendimiento de FP4 Tensor Core.

A nivel de rack, NVLink y NVSwitch mejoran la asignación de memoria y el ancho de banda, lo que permite una asombrosa transferencia de datos intrarack de 130 TB por segundo, a la vez que conectan 37 TB de memoria rápida. Esta innovación arquitectónica transforma cada rack en una unidad integrada, ofreciendo mayor rendimiento de inferencia y menor latencia para modelos más grandes y ventanas de contexto extendidas. Esta mejora es compatible con sistemas de IA agenticos y multimodales, haciéndolos más ágiles y escalables que nunca.
Para ampliar las capacidades más allá de los racks individuales, Azure emplea una arquitectura de red de árbol denso de alto rendimiento facilitada por NVIDIA Quantum-X800 Gbps InfiniBand. Este diseño garantiza un escalado eficiente para el entrenamiento de modelos ultragrandes con decenas de miles de GPU, a la vez que minimiza la sobrecarga de comunicación. La reducción de la sobrecarga de sincronización optimiza aún más el uso de la GPU, lo que permite ciclos de investigación acelerados y una mayor rentabilidad a pesar de las intensas demandas computacionales asociadas con el entrenamiento de IA. La pila de Azure, especialmente diseñada, que incluye protocolos personalizados y capacidades de computación en red, garantiza una alta confiabilidad y un uso eficiente de los recursos. Tecnologías como NVIDIA SHARP mejoran la velocidad de operación colectiva y duplican el ancho de banda efectivo mediante cálculos en el switch, lo que facilita un entrenamiento e inferencia a gran escala más eficientes.
Además, las innovadoras técnicas de refrigeración de Azure incorporan unidades de intercambio de calor independientes y sistemas avanzados de refrigeración de instalaciones, diseñados para reducir el consumo de agua y garantizar la estabilidad térmica dentro de estos clústeres densos y de alto rendimiento, como el GB300 NVL72. El desarrollo y la adaptación continuos de los modelos de distribución de energía también satisfacen los altos requisitos energéticos y las demandas de equilibrio de carga dinámico inherentes a los clústeres de GPU de la clase ND GB300 v6 VM.
a través de Microsoft
Como lo destaca NVIDIA, esta colaboración entre Microsoft Azure y NVIDIA marca un hito en el liderazgo de Estados Unidos en el sector de la IA. Los clientes ahora pueden acceder y aprovechar estas innovadoras máquinas virtuales de Azure para sus proyectos.
Deja una respuesta