Google, 차세대 “Ironwood” TPU Superpod에 대한 심층적인 세부 정보 공개: 9216개 칩, 192GB HBM 메모리, 칩당 4614 TFLOP 컴퓨팅 성능 탑재

Google, 차세대 “Ironwood” TPU Superpod에 대한 심층적인 세부 정보 공개: 9216개 칩, 192GB HBM 메모리, 칩당 4614 TFLOP 컴퓨팅 성능 탑재

Hot Chips 2025에서 Google은 혁신적인 차세대 TPU 플랫폼인 Ironwood를 선보이며 랙 수준에서의 광범위한 확장성을 강조했습니다.

구글의 아이언우드 탐험: TPU 기술의 도약

7세대 TPU를 대표하는 아이언우드 플랫폼은 2023년 4월에 처음 공개되었습니다.구글은 이 아키텍처가 현존하는 주요 슈퍼컴퓨터 대비 무려 24배 향상된 성능을 제공할 것이라고 발표했습니다.구글은 Hot Chips 2025 발표에서 지난 수년간 TPU의 발전과 발전 과정을 간략하게 설명했습니다.

TPU 시스템 비교: 2022~2025년 TPU v4, v5p, Ironwood 성능 및 용량 개요.

2022년, 구글은 단일 포드에 4, 096개의 칩을 통합하고 32GB의 1.2TB/s 고대역폭 메모리(HBM)를 탑재하여 칩당 275TFLOPS의 연산 능력을 제공하는 TPU v4를 출시했습니다.이듬해에는 8, 960개의 칩, 95GB의 2.8TB/s HBM 메모리, 그리고 칩당 459TFLOPS의 놀라운 연산 능력을 갖춘 TPU v5p가 출시되었습니다.올해 출시될 Ironwood TPU Superpod는 이러한 사양을 더욱 향상시켜 포드당 9, 216개의 칩, 192GB의 7.4TB/s HBM 메모리, 그리고 칩당 4, 614TFLOPS의 놀라운 최고 성능을 제공하여 TPU v4보다 16배 향상된 성능을 보여줍니다.

Ironwood Superpod와 Max-scale Cluster 네트워크 아키텍처의 다이어그램입니다.

구글은 아이언우드 슈퍼포드와 맥스 스케일 클러스터의 아키텍처를 심층적으로 분석했습니다.이 아키텍처의 핵심에는 아이언우드 시스템온칩(SoC)이 있으며, 각 아이언우드 PCBA 마더보드에 4개의 칩이 통합되어 아이언우드 TPU 랙에 장착됩니다.각 랙에는 아이언우드 PCBA 16개가 장착되어 총 64개의 칩으로 구성된 강력한 구성을 자랑합니다.

트레이, 케이블, 전원 장치 등의 라벨이 붙은 구성 요소를 표시한 데이터 센터 랙 하위 시스템 다이어그램입니다.

상호 연결을 위한 네트워킹 솔루션은 스케일업 네트워킹을 위해 설계된 Google의 InterChip Interconnect(ICI) 기술을 활용합니다.이 구성은 1.8페타바이트의 상당한 네트워크 용량을 통해 최대 43개의 클러스터(각각 64개의 칩으로 구성된 블록)를 Superpod에 연결할 수 있습니다.내부 데이터 교환에는 다양한 네트워크 인터페이스 카드(NIC)가 사용됩니다.

구글의 슈퍼포드는 여러 개의 랙으로 구성되어 있으며, 특히 아이언우드 슈퍼포드는 144개의 랙을 갖추고 있습니다.또한, 이 아키텍처에는 블록 간 확장 연결을 강화하는 광 스위치 섀시가 포함되어 있으며, 냉각수 분배 장치(CBU) 랙이 이를 보완합니다.

네트워크 및 냉각을 위한 Ironwood SoC, TPU, OCS 및 CDU를 갖춘 Superpod 랙 제품군 다이어그램입니다.

랙 디자인은 지난 3세대 TPU에 걸쳐 일관되게 유지된 3D 토러스(Torus) 레이아웃을 채택했습니다.각 구조적 구성 요소는 4x4x4 크기의 3D 네트워크로 구성되며, 단일 랙 내에 총 64개의 칩 또는 노드가 패키징됩니다.

4x4x4 ICI 블록 다이어그램, 케이블 및 연결에 대한 자세한 정보가 담긴 Google TPU 랙입니다.

Google의 상호 연결 전략은 시스템 구성의 유연성을 보장하기 위해 인쇄 회로 기판(PCB) 시트, 구리 수동 링크, ​​광섬유 연결을 결합한 하이브리드 모델을 채택합니다.

ICI 파이버 번들을 포함한 랙 및 사전 배치된 파이버 시스템 레이아웃 다이어그램
최적의 효율성을 위한 데이터 센터 냉각 인프라 및 레이아웃 다이어그램
데이터 센터의 TPU SoC 전원 관리 및 랙 캡핑을 설명하는 다이어그램입니다.
랙 전원 모드를 보여주는 그래프: 기준 TDP, 높은 TDP 및 120초 조절 기간 활성화 세부 정보.
ML 랙 확장 및 인프라의 과제와 기회.

9개 중 2개

각 랙의 상단에는 매니폴드에서 발생할 수 있는 액체 누출을 모니터링하는 드립 팬이 장착되어 있습니다.그 아래에는 416V AC를 정류를 통해 DC로 변환할 수 있는 두 개의 전원 도메인으로 구성된 전력 공급 시스템이 있습니다. Ironwood의 설계는 액체 냉각 시스템을 구현하여 단일 랙이 최대 부하 상태에서 100kW 이상의 전력을 지원할 수 있도록 합니다.이것으로 Ironwood TPU에 대한 통찰력을 공유했습니다.

출처 및 이미지

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다