
NVIDIA 最近對其 Blackwell GB200 和 GB300 系統進行了深入分析,重點關注其架構設計、機架、托盤以及與開放運算專案 (OCP) 的整合。
NVIDIA 在 Hot Chips 2025 大會上發表 Blackwell 架構及開放運算貢獻
在Hot Chips 2025大會上,NVIDIA推出Blackwell Ultra平台,進一步拓展了其增強型運算解決方案的願景。在此之前,NVIDIA已於去年成功推出首款Blackwell伺服器。機械工程師John Norton主持了一場全面的演講,詳細闡述了GB200和GB300系統,這反映了NVIDIA對開放運算標準的承諾。
演講首先詳細概述了 MGX 架構,NVIDIA 於去年為 OCP 貢獻了這個架構。 Norton 討論了開發 GB200 和 GB300 模型時遇到的各種障礙,並強調了除了 AI 和推理之外,一系列應用所需的多功能性。

MGX 架構專為解決全球範圍內擴展加速器以應對各種工作負載的複雜性而設計。客戶需求多種多樣,從獨特的網路需求到客製化的 CPU 和 GPU 組合,不一而足。因此,NVIDIA 實施了一種迭代式的系統開發方法,認識到微小的調整可能會對整個系統產生重大影響。這一認識促成了模組化 MGX 架構的誕生。
透過將系統劃分為更小、可互通的組件,NVIDIA 使客戶能夠修改單個元素,而無需徹底改造整個系統。這種創新方法不僅簡化了初始投資,還透過 OCP 促進了靈活開放的平台,鼓勵客戶自主自訂。

Norton 進一步分析了 MGX 框架的兩個關鍵組件:MGX 機架基礎設施以及 MGX 運算和交換器托盤,它們在組裝 GB200 “Blackwell” 系統方面發揮了重要作用。 NVIDIA 採用開放式設計標準,實現了透明度和可近性。他們提供了全面的模型和規範,可透過 OCP 下載。

在演示中,NVIDIA 分享了 GB200 和 GB300 平台的高級規格。機架的設計包括頂部的交換機,其後是電源,用於將資料中心的高壓交流電轉換為直流電,並在整個系統中分配。

GB200 配置包含 10 個運算托盤中的 300 塊晶片,此外還有 9 個交換托盤和另外 8 個運算托盤。令人印象深刻的是,每個運算托盤可提供 80 FP4 Petaflops 的運算能力,使整體效能達到 1.4 Exaflops。整個系統的功耗約為 120 千瓦,每個計算托盤的功耗約為 7 千瓦,並透過 NVLink 主幹互連。

NVLink 每通道高達 200 Gb/s,可實現 GPU 托盤和交換器托盤之間的低延遲通訊。這種銅互連技術凸顯了銅線在高頻寬資料傳輸方面的優勢。

NVIDIA 也介紹了其機架規格方案。透過以 48 毫米間距(略小於標準企業硬體使用的傳統 44.5 毫米間距)部署設備,該公司最大限度地提高了機架中的節點密度,從而帶來了許多營運優勢。

還討論了能夠處理約 35 千瓦的升級母線設計,透過增強銅橫截面擴大到支援高達 1, 400 安培,從而滿足更大的電力需求。

每個運算托盤整合兩個 CPU 和四個 GPU,並包含一個主處理器模組 (HPM),可支援一個 Grace CPU 和兩個 Blackwell GPU。創新設計提供靈活的連接選項,確保 I/O 系統的無縫整合。

該托盤還具有針對各種冷卻解決方案和電纜管理選項的可定製配置,強調了平台針對目標應用的模組化。

計算托盤的後部配備了通用快速斷開裝置 (UQD),該裝置由 OCP 標準化並支援完整的液體冷卻以提高效率。

總而言之,NVIDIA 已確認 GB200 和 GB300 系統現已全面投入生產,並部署於全球各個超大規模資料中心。他們每年都會持續創新,提升密度、能源效率和散熱解決方案,NVLink Fusion 等計劃可望顯著提升資料處理能力。
發佈留言