Google svela dettagli approfonditi sul Superpod TPU “Ironwood” di nuova generazione: dotato di 9216 chip, 192 GB di memoria HBM e 4614 TFLOP di potenza di calcolo per chip

Google svela dettagli approfonditi sul Superpod TPU “Ironwood” di nuova generazione: dotato di 9216 chip, 192 GB di memoria HBM e 4614 TFLOP di potenza di calcolo per chip

Durante Hot Chips 2025, Google ha presentato la sua rivoluzionaria piattaforma TPU di nuova generazione, nota come Ironwood, sottolineandone l’ampia scalabilità a livello di rack.

Alla scoperta di Ironwood di Google: un balzo in avanti nella tecnologia TPU

La piattaforma Ironwood, che rappresenta la settima generazione di TPU, è stata presentata per la prima volta nell’aprile 2023. Google ha annunciato che questa architettura promette uno straordinario aumento delle prestazioni di 24 volte rispetto agli attuali supercomputer leader. Nella sua presentazione a Hot Chips 2025, Google ha fornito una panoramica dell’evoluzione e dei progressi compiuti nel corso degli anni nel settore delle TPU.

Confronto dei sistemi TPU: panoramica delle prestazioni e della capacità di TPU v4, v5p e Ironwood per il periodo 2022-2025.

Nel 2022, Google ha lanciato TPU v4, che integrava 4096 chip in un singolo pod, accompagnato da 32 GB di memoria ad alta larghezza di banda (HBM) da 1, 2 TB/s e offriva 275 TFLOP di potenza di calcolo per chip. L’anno successivo, è stata introdotta la TPU v5p, con 8960 chip, 95 GB di memoria HBM da 2, 8 TB/s e ben 459 TFLOP per chip. Quest’anno, l’Ironwood TPU Superpod è destinato a elevare ulteriormente queste specifiche, fornendo 9216 chip per pod, equipaggiati con 192 GB di memoria HBM da 7, 4 TB/s e ben 4614 TFLOP di prestazioni di picco per chip, segnando un miglioramento di 16 volte rispetto alla TPU v4.

Diagramma dell'architettura di rete Ironwood Superpod e Max-scale Cluster.

Google ha approfondito l’architettura dell’Ironwood Superpod e del cluster Max-scale. Al centro di questa architettura si trova il system-on-chip (SoC) Ironwood, con quattro chip integrati in ciascuna scheda madre Ironwood PCBA, che complessivamente si adattano a un rack TPU Ironwood. Ogni rack contiene 16 schede Ironwood PCBA, equivalenti a una formidabile configurazione a 64 chip.

Diagramma dei sottosistemi dei rack dei data center con componenti etichettati come vassoi, cavi e unità di alimentazione.

La soluzione di rete per l’interconnettività utilizza la tecnologia InterChip Interconnect (ICI) di Google, progettata per reti su larga scala. Questa configurazione può collegare fino a 43 cluster (con un blocco composto da 64 chip ciascuno) attraverso Superpod, grazie a una notevole capacità di rete di 1, 8 Petabyte. Lo scambio di dati interno utilizza diverse schede di interfaccia di rete (NIC).

Il superpod di Google è costituito da più rack, in particolare l’Ironwood Superpod che ne conta 144. Inoltre, l’architettura include uno chassis per switch ottici per migliorare la connettività di scalabilità tra i blocchi, completato da un rack per l’unità di distribuzione del refrigerante (CBU).

Schema della suite rack Superpod con Ironwood SoC, TPU, OCS e CDU per rete e raffreddamento.

Il design dei rack utilizza un layout a toro 3D, mantenuto invariato nelle ultime tre generazioni di TPU. Ogni componente strutturale comprende una rete 3D 4x4x4, per un totale di 64 chip o nodi confezionati in un singolo rack.

Rack Google TPU con schema a blocchi ICI 4x4x4, cavi e connessioni dettagliati.

La strategia di interconnettività di Google si avvale di un modello ibrido che combina fogli di circuiti stampati (PCB), collegamenti passivi in ​​rame e connessioni in fibra ottica per garantire flessibilità nella configurazione del sistema.

Rack con fasci di fibre ICI e diagramma per il layout del sistema in fibra pre-distribuito
Diagramma dell'infrastruttura e del layout di raffreddamento del data center per un'efficienza ottimale
Diagramma che illustra la gestione dell'alimentazione del SoC TPU e la limitazione del rack nei data center.
Grafico che mostra le modalità di alimentazione del rack: TDP di base, TDP elevato e dettagli di attivazione del periodo di limitazione di 120 secondi.
Sfide e opportunità nel ridimensionamento dei rack e delle infrastrutture ML.

2 di 9

La sezione superiore di ogni rack è dotata di una vaschetta di raccolta per monitorare eventuali perdite di liquido dal collettore. Al di sotto si trova il sistema di alimentazione, che presenta due domini di potenza in grado di convertire 416 volt CA in CC tramite raddrizzamento. Il progetto di Ironwood implementa un sistema di raffreddamento a liquido, consentendo a un singolo rack di supportare oltre 100 kW di potenza a pieno carico. Con questo si concludono le analisi condivise sulla TPU di Ironwood.

Fonte e immagini

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *