
在 Hot Chips 2025 大会上,谷歌展示了其革命性的下一代 TPU 平台 Ironwood,强调了其在机架级别的广泛可扩展性。
探索谷歌的 Ironwood:TPU 技术的飞跃
Ironwood 平台代表着第七代 TPU,于 2023 年 4 月首次亮相。谷歌宣布,与目前领先的超级计算机相比,该架构的性能有望提升 24 倍。在 2025 年 Hot Chips 大会的演示中,谷歌概述了其 TPU 多年来的演变和进步。

2022年,谷歌推出了TPU v4,单个Pod集成了4096个芯片,并配备32 GB、1.2 TB/s的高带宽内存(HBM),每个芯片可提供275 TFLOP的计算能力。次年,谷歌推出了TPU v5p,集成了8960个芯片,95 GB、2.8 TB/s的HBM内存,每个芯片的计算能力高达459 TFLOP。今年,Ironwood TPU Superpod将进一步提升这些规格,每个Pod集成9216个芯片,并配备192 GB、7.4 TB/s的HBM内存,每个芯片的峰值性能高达4614 TFLOP,比TPU v4提升了16倍。

谷歌对 Ironwood Superpod 和 Max-scale 集群的架构进行了深入研究。该架构的核心是 Ironwood 系统级芯片 (SoC),每个 Ironwood PCBA 主板上集成了四块芯片,这些芯片可以整合到一个 Ironwood TPU 机架中。每个机架可容纳 16 块 Ironwood PCBA,相当于一个强大的 64 芯片配置。

互联互通的网络解决方案采用了谷歌的芯片间互联 (ICI) 技术,该技术专为扩展网络而设计。该方案可跨 Superpod 连接多达 43 个集群(每个集群包含 64 个芯片),并拥有高达 1.8PB 的网络容量。内部数据交换则采用各种网络接口卡 (NIC)。
谷歌的超级Pod由多个机架组成,尤其是Ironwood SuperPod,它拥有144个机架。此外,该架构还包含一个光交换机机箱,用于增强跨块的扩展连接,并配有一个冷却液分配单元(CBU)机架。

机架设计采用3D环面布局,这一设计贯穿了过去三代TPU的设计。每个结构组件包含一个4x4x4的3D网络,单个机架内共封装64个芯片或节点。

Google 的互联互通策略采用了印刷电路板 (PCB) 板、铜无源链路和光纤连接的混合模型,以确保系统配置的灵活性。





9中的2
每个机架的上部都配备了一个滴水盘,用于监测歧管可能出现的液体泄漏。滴水盘下方是供电系统,该系统具有两个电源域,能够通过整流将 416 伏交流电转换为直流电。Ironwood 的设计采用了液冷系统,使单个机架在满载情况下能够支持超过 100 千瓦的功率。以上就是关于 Ironwood TPU 的分享。
发表回复