
A Microsoft fez um anúncio significativo sobre sua plataforma Azure, revelando seu primeiro cluster de produção em larga escala que integra as GPUs de ponta GB300 “Blackwell Ultra” da NVIDIA. Este avanço foi projetado especificamente para lidar com modelos de IA extremamente grandes.
NVIDIA GB300 “Blackwell Ultra”: aprimorando o treinamento de IA na plataforma Azure da Microsoft
A estrutura do Azure foi atualizada para incluir o Blackwell Ultra, apresentando uma implantação robusta de mais de 4.600 GPUs construídas na arquitetura avançada GB300 NVL72 da NVIDIA. Essa configuração utiliza a tecnologia de interconexão InfiniBand de última geração, aumentando significativamente a capacidade da Microsoft de implantar centenas de milhares de GPUs Blackwell Ultra em seus data centers globais, todos dedicados a cargas de trabalho de IA.
O primeiro cluster de supercomputação @nvidia GB300 NVL72 em larga escala do mundo para cargas de trabalho de IA já está disponível no Microsoft Azure. A implantação conecta mais de 4.600 GPUs NVIDIA Blackwell Ultra usando a rede InfiniBand de última geração — desenvolvida para treinar e implantar modelos avançados de IA mais rápido do que… pic.twitter.com/CmmDtcrlwn
— Microsoft Azure (@Azure) 9 de outubro de 2025
De acordo com a Microsoft, a implantação do cluster Azure equipado com GPUs NVIDIA GB300 NVL72 “Blackwell Ultra” pode reduzir drasticamente o tempo de treinamento do modelo de vários meses para apenas algumas semanas. Esse avanço permite o treinamento de modelos que consistem em centenas de trilhões de parâmetros. A NVIDIA também demonstrou desempenho líder em métricas de inferência, como evidenciado por diversos benchmarks MLPerf e pelos recentes testes de IA do InferenceMAX.
As recém-lançadas máquinas virtuais (VMs) Azure ND GB300 v6 são otimizadas para uma variedade de aplicações avançadas, incluindo modelos de raciocínio, sistemas de IA com agentes e tarefas de IA generativa multimodal. Cada rack nesta infraestrutura acomoda 18 VMs, cada uma equipada com 72 GPUs. As especificações a seguir destacam os recursos de desempenho:
- 72 GPUs NVIDIA Blackwell Ultra combinadas com 36 CPUs NVIDIA Grace.
- Largura de banda expansível entre racks de 800 gigabits por segundo (Gbps) por meio do NVIDIA Quantum-X800 InfiniBand de última geração.
- 130 terabytes (TB) por segundo de largura de banda NVIDIA NVLink por rack.
- 37 TB de memória de alta velocidade.
- Até 1.440 petaflops (PFLOPS) de desempenho do FP4 Tensor Core.

No nível do rack, o NVLink e o NVSwitch aprimoram a alocação de memória e a largura de banda, permitindo impressionantes 130 TB por segundo de transferência de dados intra-rack, ao mesmo tempo em que conectam 37 TB de memória rápida. Essa inovação arquitetônica transforma cada rack em uma unidade integrada, proporcionando maior rendimento de inferência e menor latência para modelos maiores e janelas de contexto estendidas. Essa melhoria oferece suporte a sistemas de IA multimodais e com agentes, tornando-os mais ágeis e escaláveis do que nunca.
Para estender os recursos além dos racks individuais, o Azure emprega uma arquitetura de rede fat-tree de alto desempenho, facilitada pela NVIDIA Quantum-X800 Gbps InfiniBand. Esse design garante escalonamento eficiente para treinamento de modelos ultragrandes para dezenas de milhares de GPUs, minimizando a sobrecarga de comunicação. As reduções na sobrecarga de sincronização permitem ainda mais a utilização ideal da GPU, permitindo ciclos de pesquisa acelerados e eficiência de custos, apesar das intensas demandas computacionais associadas ao treinamento de IA. A pilha especialmente projetada do Azure, que inclui protocolos personalizados e recursos de computação em rede, garante alta confiabilidade e utilização eficaz de recursos. Tecnologias como a NVIDIA SHARP aprimoram as velocidades de operação coletiva e dobram a largura de banda efetiva por meio de cálculos no switch, facilitando, assim, treinamento e inferência em larga escala mais eficientes.
Além disso, as técnicas inovadoras de resfriamento do Azure incorporam unidades autônomas de troca de calor e sistemas avançados de resfriamento de instalações, visando reduzir o consumo de água e, ao mesmo tempo, garantir a estabilidade térmica dentro desses clusters densos e de alto desempenho, como o GB300 NVL72. O desenvolvimento e a adaptação contínuos de modelos de distribuição de energia também atendem aos altos requisitos de energia e às demandas de balanceamento dinâmico de carga inerentes à classe de clusters de GPU ND GB300 v6 VM.
via Microsoft
Conforme destacado pela NVIDIA, esta colaboração entre a Microsoft Azure e a NVIDIA marca um momento crucial na liderança dos Estados Unidos no setor de IA. Os clientes agora podem acessar e utilizar essas inovadoras VMs do Azure em seus projetos.
Deixe um comentário