Meta 的 Catalina Pod AI 系統整合了 NVIDIA Blackwell GB200 NVL72、Open Rack v3 和先進的液體冷卻技術

Meta 的 Catalina Pod AI 系統整合了 NVIDIA Blackwell GB200 NVL72、Open Rack v3 和先進的液體冷卻技術

Meta 公佈了其創新 Catalina AI 系統的重要細節,該系統利用 NVIDIA 的 GB200 NVL72 技術以及 Open Rack v3 和液體冷卻系統的進步。

資料中心革命:Meta 為 Catalina Pod 客製化的 NVIDIA GB200 NVL72 Blackwell 平台

2022 年,Meta 的重點主要放在通常包含約 6, 000 個單元的 GPU 叢集上,主要用於支援傳統的排名和推薦演算法。這些叢集的負載通常在 128 到 512 個 GPU 之間。然而,在過去一年中,受生成式人工智慧 (GenAI) 和大型語言模型 (LLM) 爆炸性增長的推動,發生了顯著的轉變。

人工智慧集群規模逐年成長

如今,Meta 的 GPU 叢集已擴展到令人印象深刻的 16, 000 到 24, 000 塊 GPU,成長了四倍。截至去年,該公司營運超過 10 萬塊 GPU,並且持續擴張。隨著 LLama 模型等軟體的進步,Meta 預測其叢集規模在不久的將來將達到驚人的十倍成長。

Meta、NVIDIA 和 Open Compute Project 合作

Meta 與 NVIDIA 緊密合作,以 NVL72 GPU 解決方案為基礎,共同啟動了 Catalina 專案。雙方對系統進行了修改,使其符合各自的特定需求。此外,兩家公司還為開源框架貢獻了 MGX 和 NVL72 的參考設計,使其能夠在開放運算專案 (OCP) 網站上廣泛存取。

資料中心 IT 機架

Catalina 系統代表了 Meta 在其資料中心的尖端部署,其中每個系統配置都稱為「pod」。這種模組化設計透過複製基本框架實現了系統的快速擴展。

NVIDIA MGX GB200 系統配置
帶有 Grace CPU 的 Meta Catalina 配置

Meta 客製化 NVL72 設計的顯著特點是其雙 IT 機架,每個機架構成一個包含 72 個 GPU 的單一縱向擴充域。兩個機架的配置保持一致,上下兩部分之間各有 18 個計算托盤,兩側各有 9 個 NV 交換器。冗餘佈線的整合對於統一兩個機架的 GPU 資源至關重要,從而有效地建立單一運算域。

NVIDIA 與 Meta GB200 NVL72 資源比較

每個機架還配備大型空氣輔助液體冷卻 (ALC) 裝置,旨在實現高功率密度運作。這種配置使 Meta 能夠在北美乃至全球的資料中心高效地部署液體冷卻系統。

Catalina 架構概述

借助這些雙機架,Meta 可以有效地將 CPU 數量翻倍,並最大化內存容量,每個機架最多可容納 34 TB 的 LPDDR 內存,從而實現 GPU 和 CPU 均可訪問的總計 48 TB 的緩存一致性內存。電源單元 (PSU) 採用 480 伏特或 277 伏特單相電壓,轉換為 48 伏特直流電,為架構內的所有伺服器刀鋒、網路設備和 NV 交換器供電。

高功率機架部署
資料中心冷卻系統
資料中心洩漏檢測系統
AI優化的分解調度結構網絡
使用 Catalina 互連設置 GPU 網絡

此外,此配置在每個機架的頂部和底部均設有電源架,並在底部配有附加單元。 Meta 部署了一個專用光纖路徑面板,用於管理連接到後端網路的所有內部光纖佈線,確保與端點交換器的順暢連接,從而支援擴展域。

計算托盤示意圖

為了支援強大的基礎架構,Meta 整合了 NVIDIA NVL72 GB200 Blackwell 系統固有的先進技術,並配備了高容量電源和刀片等獨特的增強功能。液體冷卻系統與機架管理控制器 (RMC) 結合,確保高效管理冷卻協議,同時監控洩漏情況。

Meta Board 與 Nvidia GB200 對比
PDB電路板特寫
電源分配圖
DC-SCM硬體板特寫
RMC設計與連接圖
洩漏感應圖表

此次部署標誌著 Meta 高容量 OpenRack v3 的顯著提升,將機架內的功率分配提升至 94 kW,電流為 600A,使其能夠與配備整合液冷系統的先進設施相容。液流管理中心 (RMC) 有效率地管理液流,它能夠監控機架內各個組件是否有潛在洩漏,同時協調冷卻系統的最佳運作。

計算托盤架構圖

此外,Meta 採用的分散式調度架構,能夠實現單一資料設施內多個 Pod 的互連,從而建立一個可擴展的模型,無縫連接多棟建築。該基礎設施專為 AI 應用量身定制,增強了 GPU 間的通訊能力,並提升了整體系統的靈活性。

來源和圖片

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *