
NVIDIA 最近对其 Blackwell GB200 和 GB300 系统进行了深入分析,重点关注其架构设计、机架、托盘以及与开放计算项目 (OCP) 的集成。
NVIDIA 在 Hot Chips 2025 大会上发布 Blackwell 架构及开放计算贡献
在Hot Chips 2025大会上,NVIDIA推出Blackwell Ultra平台,进一步拓展了其增强型计算解决方案的愿景。此前,NVIDIA已于去年成功推出首款Blackwell服务器。机械工程师John Norton主持了一场全面的演讲,详细阐述了GB200和GB300系统,这体现了NVIDIA对开放计算标准的承诺。
演讲首先详细概述了 MGX 架构,NVIDIA 于去年为 OCP 贡献了该架构。Norton 讨论了开发 GB200 和 GB300 模型时遇到的各种障碍,并强调了除了 AI 和推理之外,一系列应用所需的多功能性。

MGX 架构专为解决全球范围内扩展加速器以应对各种工作负载的复杂性而设计。客户需求多种多样,从独特的网络需求到定制的 CPU 和 GPU 组合,不一而足。因此,NVIDIA 实施了一种迭代式的系统开发方法,认识到微小的调整可能会对整个系统产生重大影响。这一认识促成了模块化 MGX 架构的诞生。
通过将系统划分为更小、可互操作的组件,NVIDIA 使客户能够修改单个元素,而无需彻底改造整个系统。这种创新方法不仅简化了初始投资,还通过 OCP 促进了灵活开放的平台,鼓励客户自主定制。

Norton 进一步分析了 MGX 框架的两个关键组件:MGX 机架基础设施以及 MGX 计算和交换机托盘,它们在组装 GB200 “Blackwell” 系统方面发挥了重要作用。NVIDIA 采用开放设计标准,实现了透明度和可访问性。他们提供了全面的模型和规范,可通过 OCP 下载。

在演示中,NVIDIA 分享了 GB200 和 GB300 平台的高级规格。机架的设计包括顶部的交换机,其后是电源,用于将数据中心的高压交流电转换为直流电,并在整个系统中分配。

GB200 配置包含 10 个计算托盘中的 300 块芯片,此外还有 9 个交换托盘和另外 8 个计算托盘。令人印象深刻的是,每个计算托盘可提供 80 FP4 Petaflops 的计算能力,使整体性能达到 1.4 Exaflops。整个系统的功耗约为 120 千瓦,每个计算托盘的功耗约为 7 千瓦,并通过 NVLink 主干互连。

NVLink 每通道高达 200 Gb/s,可实现 GPU 托盘和交换机托盘之间的低延迟通信。这种铜互连技术凸显了铜线在高带宽数据传输方面的优势。

NVIDIA 还介绍了其机架规格方案。通过以 48 毫米间距(略小于标准企业硬件使用的传统 44.5 毫米间距)部署设备,该公司最大限度地提高了机架中的节点密度,从而带来了诸多运营优势。

还讨论了能够处理约 35 千瓦的升级母线设计,通过增强铜横截面扩大到支持高达 1, 400 安培,从而满足更大的电力需求。

每个计算托盘集成两个 CPU 和四个 GPU,并包含一个主处理器模块 (HPM),可支持一个 Grace CPU 和两个 Blackwell GPU。创新设计提供灵活的连接选项,确保 I/O 系统的无缝集成。

该托盘还具有针对各种冷却解决方案和电缆管理选项的可定制配置,强调了平台针对目标应用的模块化。

计算托盘的后部配备了通用快速断开装置 (UQD),该装置由 OCP 标准化并支持完整的液体冷却以提高效率。

总而言之,NVIDIA 已确认 GB200 和 GB300 系统现已全面投入生产,并部署于全球各个超大规模数据中心。他们每年都会持续创新,提升密度、能效和散热解决方案,NVLink Fusion 等计划有望显著提升数据处理能力。
发表回复