NVIDIA 揭示 Blackwell GB200 和 GB300 NVL 机架、托盘和 MGX 开放计算计划的技术见解

NVIDIA 最近对其 Blackwell GB200 和 GB300 系统进行了深入分析，重点关注其架构设计、机架、托盘以及与开放计算项目 (OCP) 的集成。

NVIDIA 在 Hot Chips 2025 大会上发布 Blackwell 架构及开放计算贡献

在Hot Chips 2025大会上，NVIDIA推出Blackwell Ultra平台，进一步拓展了其增强型计算解决方案的愿景。此前，NVIDIA已于去年成功推出首款Blackwell服务器。机械工程师John Norton主持了一场全面的演讲，详细阐述了GB200和GB300系统，这体现了NVIDIA对开放计算标准的承诺。

演讲首先详细概述了 MGX 架构，NVIDIA 于去年为 OCP 贡献了该架构。Norton 讨论了开发 GB200 和 GB300 模型时遇到的各种障碍，并强调了除了 AI 和推理之外，一系列应用所需的多功能性。

NVIDIA GB200/300案例研究，作者：机械工程师John Norton。2025年热门芯片演示。

MGX 架构专为解决全球范围内扩展加速器以应对各种工作负载的复杂性而设计。客户需求多种多样，从独特的网络需求到定制的 CPU 和 GPU 组合，不一而足。因此，NVIDIA 实施了一种迭代式的系统开发方法，认识到微小的调整可能会对整个系统产生重大影响。这一认识促成了模块化 MGX 架构的诞生。

通过将系统划分为更小、可互操作的组件，NVIDIA 使客户能够修改单个元素，而无需彻底改造整个系统。这种创新方法不仅简化了初始投资，还通过 OCP 促进了灵活开放的平台，鼓励客户自主定制。

Norton 进一步分析了 MGX 框架的两个关键组件：MGX 机架基础设施以及 MGX 计算和交换机托盘，它们在组装 GB200 “Blackwell” 系统方面发挥了重要作用。NVIDIA 采用开放设计标准，实现了透明度和可访问性。他们提供了全面的模型和规范，可通过 OCP 下载。

在演示中，NVIDIA 分享了 GB200 和 GB300 平台的高级规格。机架的设计包括顶部的交换机，其后是电源，用于将数据中心的高压交流电转换为直流电，并在整个系统中分配。

GB200 配置包含 10 个计算托盘中的 300 块芯片，此外还有 9 个交换托盘和另外 8 个计算托盘。令人印象深刻的是，每个计算托盘可提供 80 FP4 Petaflops 的计算能力，使整体性能达到 1.4 Exaflops。整个系统的功耗约为 120 千瓦，每个计算托盘的功耗约为 7 千瓦，并通过 NVLink 主干互连。