谷歌公佈下一代「Ironwood」TPU Superpod 詳細細節:搭載 9216 顆晶片、192GB HBM 內存,每顆晶片運算能力達 4614 TFLOP

谷歌公佈下一代「Ironwood」TPU Superpod 詳細細節:搭載 9216 顆晶片、192GB HBM 內存,每顆晶片運算能力達 4614 TFLOP

在 Hot Chips 2025 大會上,Google展示了其革命性的下一代 TPU 平台 Ironwood,強調了其在機架層級的廣泛可擴展性。

探索Google的 Ironwood:TPU 技術的飛躍

Ironwood 平台代表第七代 TPU,於 2023 年 4 月首次亮相。谷歌宣布,與目前領先的超級電腦相比,該架構的效能有望提升 24 倍。在 2025 年 Hot Chips 大會的演示中,谷歌概述了其 TPU 多年來的演變和進步。

TPU 系統比較:2022-2025 年 TPU v4、v5p、Ironwood 效能與容量概覽。

2022年,Google推出了TPU v4,單一Pod整合了4096個晶片,並配備32 GB、1.2 TB/s的高頻寬記憶體(HBM),每個晶片可提供275 TFLOP的運算能力。隔年,Google推出了TPU v5p,整合了8960個晶片,95 GB、2.8 TB/s的HBM內存,每個晶片的運算能力高達459 TFLOP。今年,Ironwood TPU Superpod將進一步提升這些規格,每個Pod集成9216個晶片,並配備192 GB、7.4 TB/s的HBM內存,每個晶片的峰值性能高達4614 TFLOP,比TPU v4提升了16倍。

Ironwood Superpod 和 Max-scale Cluster 網路架構圖。

谷歌對 Ironwood Superpod 和 Max-scale 叢集的架構進行了深入研究。該架構的核心是 Ironwood 系統級晶片 (SoC),每個 Ironwood PCBA 主機板上整合了四塊晶片,這些晶片可以整合到一個 Ironwood TPU 機架中。每個機架可容納 16 塊 Ironwood PCBA,相當於強大的 64 晶片配置。

資料中心機架子系統圖,其中標有托盤、電纜和電源單元等組件。

互聯互通的網路解決方案採用了Google的晶片間互聯 (ICI) 技術,該技術專為擴展網路而設計。此方案可跨 Superpod 連接多達 43 個叢集(每個叢集包含 64 個晶片),並擁有高達 1.8PB 的網路容量。內部資料交換則採用各種網路介面卡 (NIC)。

Google的超級Pod由多個機架組成,尤其是Ironwood SuperPod,它擁有144個機架。此外,該架構還包含一個光交換機機箱,用於增強跨塊的擴展連接,並配有一個冷卻液分配單元(CBU)機架。

Superpod 機架套件圖,其中配有 Ironwood SoC、TPU、OCS 和 CDU,用於網路和冷卻。

機架設計採用3D環面佈局,此設計貫穿了過去三代TPU的設計。每個結構組件包含一個4x4x4的3D網絡,單一機架內共封裝64個晶片或節點。

帶有 4x4x4 ICI 框圖、電纜和連接的 Google TPU 機架。

Google 的互聯互通策略採用了印刷電路板 (PCB) 板、銅被動鏈路和光纖連接的混合模型,以確保系統配置的靈活性。

具有 ICI 光纖束的機架和預部署光纖系統佈局圖
資料中心冷卻基礎設施和佈局圖,以實現最佳效率
圖表展示了資料中心的 TPU SoC 電源管理和機架封頂。
圖表顯示了機架電源模式:基線 TDP、高 TDP 和 120 秒節流期啟動細節。
ML 機架擴展和基礎設施中的挑戰和機會。

9中的2

每個機架的上部都配備了一個滴水盤,用於監測歧管可能出現的液體洩漏。滴水盤下方是供電系統,該系統具有兩個電源域,能夠透過整流將 416 伏特交流電轉換為直流電。 Ironwood 的設計採用了液冷系統,使單一機架在滿載情況下能夠支援超過 100 千瓦的功率。以上就是關於 Ironwood TPU 的分享。

來源和圖片

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *