NVIDIA 揭示 Blackwell GB200 和 GB300 NVL 機架、托盤和 MGX 開放運算計畫的技術見解

NVIDIA 最近對其 Blackwell GB200 和 GB300 系統進行了深入分析，重點關注其架構設計、機架、托盤以及與開放運算專案 (OCP) 的整合。

NVIDIA 在 Hot Chips 2025 大會上發表 Blackwell 架構及開放運算貢獻

在Hot Chips 2025大會上，NVIDIA推出Blackwell Ultra平台，進一步拓展了其增強型運算解決方案的願景。在此之前，NVIDIA已於去年成功推出首款Blackwell伺服器。機械工程師John Norton主持了一場全面的演講，詳細闡述了GB200和GB300系統，這反映了NVIDIA對開放運算標準的承諾。

演講首先詳細概述了 MGX 架構，NVIDIA 於去年為 OCP 貢獻了這個架構。 Norton 討論了開發 GB200 和 GB300 模型時遇到的各種障礙，並強調了除了 AI 和推理之外，一系列應用所需的多功能性。

NVIDIA GB200/300案例研究，作者：機械工程師John Norton。 2025年熱門晶片示範。

MGX 架構專為解決全球範圍內擴展加速器以應對各種工作負載的複雜性而設計。客戶需求多種多樣，從獨特的網路需求到客製化的 CPU 和 GPU 組合，不一而足。因此，NVIDIA 實施了一種迭代式的系統開發方法，認識到微小的調整可能會對整個系統產生重大影響。這一認識促成了模組化 MGX 架構的誕生。

透過將系統劃分為更小、可互通的組件，NVIDIA 使客戶能夠修改單個元素，而無需徹底改造整個系統。這種創新方法不僅簡化了初始投資，還透過 OCP 促進了靈活開放的平台，鼓勵客戶自主自訂。

Norton 進一步分析了 MGX 框架的兩個關鍵組件：MGX 機架基礎設施以及 MGX 運算和交換器托盤，它們在組裝 GB200 “Blackwell” 系統方面發揮了重要作用。 NVIDIA 採用開放式設計標準，實現了透明度和可近性。他們提供了全面的模型和規範，可透過 OCP 下載。

在演示中，NVIDIA 分享了 GB200 和 GB300 平台的高級規格。機架的設計包括頂部的交換機，其後是電源，用於將資料中心的高壓交流電轉換為直流電，並在整個系統中分配。

GB200 配置包含 10 個運算托盤中的 300 塊晶片，此外還有 9 個交換托盤和另外 8 個運算托盤。令人印象深刻的是，每個運算托盤可提供 80 FP4 Petaflops 的運算能力，使整體效能達到 1.4 Exaflops。整個系統的功耗約為 120 千瓦，每個計算托盤的功耗約為 7 千瓦，並透過 NVLink 主幹互連。