谷歌公布下一代“Ironwood”TPU Superpod 详细细节:搭载 9216 颗芯片、192GB HBM 内存,每颗芯片计算能力达 4614 TFLOP

谷歌公布下一代“Ironwood”TPU Superpod 详细细节:搭载 9216 颗芯片、192GB HBM 内存,每颗芯片计算能力达 4614 TFLOP

在 Hot Chips 2025 大会上,谷歌展示了其革命性的下一代 TPU 平台 Ironwood,强调了其在机架级别的广泛可扩展性。

探索谷歌的 Ironwood:TPU 技术的飞跃

Ironwood 平台代表着第七代 TPU,于 2023 年 4 月首次亮相。谷歌宣布,与目前领先的超级计算机相比,该架构的性能有望提升 24 倍。在 2025 年 Hot Chips 大会的演示中,谷歌概述了其 TPU 多年来的演变和进步。

TPU 系统比较:2022-2025 年 TPU v4、v5p、Ironwood 性能和容量概览。

2022年,谷歌推出了TPU v4,单个Pod集成了4096个芯片,并配备32 GB、1.2 TB/s的高带宽内存(HBM),每个芯片可提供275 TFLOP的计算能力。次年,谷歌推出了TPU v5p,集成了8960个芯片,95 GB、2.8 TB/s的HBM内存,每个芯片的计算能力高达459 TFLOP。今年,Ironwood TPU Superpod将进一步提升这些规格,每个Pod集成9216个芯片,并配备192 GB、7.4 TB/s的HBM内存,每个芯片的峰值性能高达4614 TFLOP,比TPU v4提升了16倍。

Ironwood Superpod 和 Max-scale Cluster 网络架构图。

谷歌对 Ironwood Superpod 和 Max-scale 集群的架构进行了深入研究。该架构的核心是 Ironwood 系统级芯片 (SoC),每个 Ironwood PCBA 主板上集成了四块芯片,这些芯片可以整合到一个 Ironwood TPU 机架中。每个机架可容纳 16 块 Ironwood PCBA,相当于一个强大的 64 芯片配置。

数据中心机架子系统图,其中标有托盘、电缆和电源单元等组件。

互联互通的网络解决方案采用了谷歌的芯片间互联 (ICI) 技术,该技术专为扩展网络而设计。该方案可跨 Superpod 连接多达 43 个集群(每个集群包含 64 个芯片),并拥有高达 1.8PB 的网络容量。内部数据交换则采用各种网络接口卡 (NIC)。

谷歌的超级Pod由多个机架组成,尤其是Ironwood SuperPod,它拥有144个机架。此外,该架构还包含一个光交换机机箱,用于增强跨块的扩展连接,并配有一个冷却液分配单元(CBU)机架。

Superpod 机架套件图,其中配有 Ironwood SoC、TPU、OCS 和 CDU,用于网络和冷却。

机架设计采用3D环面布局,这一设计贯穿了过去三代TPU的设计。每个结构组件包含一个4x4x4的3D网络,单个机架内共封装64个芯片或节点。

带有 4x4x4 ICI 框图、电缆和连接的 Google TPU 机架。

Google 的互联互通策略采用了印刷电路板 (PCB) 板、铜无源链路和光纤连接的混合模型,以确保系统配置的灵活性。

带有 ICI 光纤束的机架和预部署光纤系统布局图
数据中心冷却基础设施和布局图,以实现最佳效率
图表展示了数据中心的 TPU SoC 电源管理和机架封顶。
图表显示了机架电源模式:基线 TDP、高 TDP 和 120 秒节流期激活细节。
ML 机架扩展和基础设施中的挑战和机遇。

9中的2

每个机架的上部都配备了一个滴水盘,用于监测歧管可能出现的液体泄漏。滴水盘下方是供电系统,该系统具有两个电源域,能够通过整流将 416 伏交流电转换为直流电。Ironwood 的设计采用了液冷系统,使单个机架在满载情况下能够支持超过 100 千瓦的功率。以上就是关于 Ironwood TPU 的分享。

来源和图片

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注