Microsoft Azure 超级升级,搭载 NVIDIA GB300 “Blackwell Ultra” GPU:4600 个 GPU 为拥有超过一万亿参数的 AI 模型提供支持

Microsoft Azure 超级升级,搭载 NVIDIA GB300 “Blackwell Ultra” GPU:4600 个 GPU 为拥有超过一万亿参数的 AI 模型提供支持

微软就其 Azure 平台发布了一项重要声明,推出了首个集成 NVIDIA 尖端 GB300 “Blackwell Ultra” GPU 的大规模生产集群。这项技术专为处理超大型 AI 模型而设计。

NVIDIA GB300“Blackwell Ultra”:增强微软 Azure 平台的 AI 训练

Azure 框架已升级,包含 Blackwell Ultra,其强大的部署涵盖了超过 4, 600 个基于 NVIDIA 先进 ​​GB300 NVL72 架构的 GPU。该配置采用了最先进的 InfiniBand 互连技术,显著提升了微软在其全球数据中心部署数十万个 Blackwell Ultra GPU 的能力,这些 GPU 均专用于 AI 工作负载。

据微软称,部署搭载 NVIDIA GB300 NVL72 “Blackwell Ultra” GPU 的 Azure 集群,可将模型训练时间从数月大幅缩短至数周。这一进步使得包含数百万亿个参数的模型能够得到训练。NVIDIA 在推理指标方面也展现出领先的性能,众多 MLPerf 基准测试和最近的InferenceMAX AI 测试都证明了这一点。

全新推出的 Azure ND GB300 v6 虚拟机 (VM) 针对各种高级应用进行了优化,包括推理模型、代理 AI 系统和多模态生成 AI 任务。该基础架构中的每个机架可容纳 18 台虚拟机,每台虚拟机配备 72 个 GPU。以下规格突出了其性能优势:

  • 72 个 NVIDIA Blackwell Ultra GPU 与 36 个 NVIDIA Grace CPU 配对。
  • 通过尖端的 NVIDIA Quantum-X800 InfiniBand 实现 800 千兆位每秒 (Gbps) 的跨机架横向扩展带宽。
  • 每机架每秒 130 太字节 (TB) 的 NVIDIA NVLink 带宽。
  • 37 TB高速内存。
  • FP4 Tensor Core 性能高达 1, 440 千万亿次浮点运算 (PFLOPS)。
Microsoft Azure 通过 NVIDIA 的 GB300 获得超级升级

在机架层面,NVLink 和 NVSwitch 改进了内存分配和带宽,在连接 37 TB 快速内存的同时,实现了惊人的每秒 130 TB 机架内数据传输。这项架构创新将每个机架转变为一个集成单元,为更大的模型和扩展的上下文窗口提供更高的推理吞吐量和更低的延迟。这项增强功能支持代理和多模态 AI 系统,使其比以往任何时候都更加敏捷和可扩展。

为了将功能扩展到单个机架之外,Azure 采用了由 NVIDIA Quantum-X800 Gbps InfiniBand 支持的高性能胖树网络架构。这种设计确保了超大型模型训练能够高效扩展到数万个 GPU,同时最大限度地降低通信开销。同步开销的降低进一步实现了 GPU 的最佳利用率,即使在 AI 训练需要大量计算的情况下,也能加快研究周期并提高成本效益。Azure 专门设计的堆栈包含自定义协议和网络内计算功能,可确保高可靠性和高效的资源利用率。NVIDIA SHARP 等技术通过交换机计算提高了集体运算速度并使有效带宽翻倍,从而促进更高效的大规模训练和推理。

此外,Azure 的创新冷却技术融合了独立的热交换单元和先进的设施冷却系统,旨在减少用水量,同时确保 GB300 NVL72 等高密度高性能集群的热稳定性。持续开发和调整配电模型,也支持 ND GB300 v6 VM 级 GPU 集群固有的高能耗和动态负载平衡需求。

通过微软

正如NVIDIA所强调的,微软Azure与NVIDIA的此次合作标志着美国在人工智能领域保持领先地位的关键时刻。客户现在可以访问并利用这些突破性的Azure虚拟机来开展他们的项目。

来源和图片

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注