Google entra nell’era dell’IA agentica con il suo ipercomputer AI avanzato che integra TPU di ottava generazione, NVIDIA Rubin e CPU Axion.

Google ha presentato ufficialmente il suo rivoluzionario ipercomputer per l’ intelligenza artificiale (IA) all’evento Cloud Next 26, rivoluzionando il panorama delle infrastrutture per l’IA grazie all’integrazione di chip della serie TPUv8, GPU NVIDIA Rubin e CPU Axion. Questo annuncio rappresenta una pietra miliare significativa per il futuro dell’IA agentiva.

Google Cloud Next 26: l’ipercomputer AI che rivoluziona l’intelligenza artificiale agentiva con tecnologie avanzate.

L’era convenzionale dei supercomputer sta lasciando il posto a un nuovo paradigma dominato dagli ipercomputer, che combinano diverse opzioni di calcolo per creare architetture di intelligenza artificiale adattabili e ad alte prestazioni. L’ipercomputer per l’IA di Google rappresenta questa evoluzione, offrendo ai clienti una flessibilità senza precedenti per soddisfare le loro esigenze di calcolo.

Un diagramma intitolato "Ipercomputer AI" è suddiviso in tre sezioni: "Consumo flessibile" con "Orchestrazione", "Gestione cluster" e "Modelli di consumo"; "Software open source" con "Framework" e "Motori di inferenza"; e "Hardware dedicato" con "Calcolo", "Archiviazione" e "Reti".

Per realizzare il potenziale dell’Ipercomputer AI, Google ha sviluppato un’architettura specificamente ottimizzata per le prestazioni. Al suo interno, l’Ipercomputer AI si basa sulla più recente serie TPUv8, sulle innovative CPU cloud Axion e sulle avanzate GPU NVIDIA Rubin. Ciò include il lancio della TPU di ottava generazione di Google, disponibile in due modelli distinti: TPU 8t e TPU 8i.

Modello TPU 8t ottimizzato per un allenamento migliorato

Il TPU 8t è progettato come un formidabile processore di training, in grado di ridurre drasticamente i tempi di implementazione dei modelli di frontiera da mesi a poche settimane. Offre una velocità di calcolo di prim’ordine, funzionalità di memoria condivisa avanzate e un’impressionante larghezza di banda interchip, il tutto in un design a basso consumo energetico. Le caratteristiche principali del TPU 8t includono:

Enormi capacità di scalabilità: un singolo superpod TPU 8t può scalare fino a 9.600 chip, accompagnati da due petabyte di memoria condivisa ad alta larghezza di banda, offrendo il doppio della larghezza di banda interchip rispetto al suo predecessore. Questa configurazione fornisce fino a 121 ExaFLOPS di potenza di calcolo, consentendo a modelli complessi di utilizzare un unico ampio pool di memoria.
Massimizzazione dell’utilizzo: grazie a un miglioramento di 10 volte nella velocità di accesso alla memoria, combinato con TPUDirect per un recupero dati ottimizzato, TPU 8t migliora l’utilizzo del sistema a 360 gradi.
Scalabilità quasi lineare: l’integrazione della nuova rete Virgo e di software avanzati come JAX consente a TPU 8t di facilitare la scalabilità quasi lineare per cluster logici contenenti fino a un milione di chip.

TPU 8i: Un nuovo punto di riferimento nell’inferenza

La TPU 8i è progettata specificamente per le attività di inferenza, vantando ben 288 GB di memoria HBM, abbinati a una significativa quantità di 384 MB di SRAM on-chip, il triplo della capacità dei suoi predecessori. Questa architettura consente il funzionamento continuo di modelli interamente sul chip. Le caratteristiche principali della TPU 8i includono:

Efficienza grazie ad Axion: questo modello raddoppia il numero di host CPU fisici per server e sfrutta CPU Axion personalizzate basate su Arm con architettura di memoria non uniforme (NUMA) per prestazioni migliorate.
Ottimizzato per modelli Mixture of Experts (MoE): il TPU 8i offre una larghezza di banda di interconnessione (ICI) aumentata a 19, 2 Tb/s e un’architettura Boardfly che riduce significativamente il diametro della rete, garantendo funzionalità integrate a bassa latenza.
Latenza ridotta: grazie al nuovo Collectives Acceleration Engine (CAE) integrato, TPU 8i riduce la latenza interna, migliorando significativamente le prestazioni.

Nell'immagine, a fuoco, sono visibili due chip Google Cloud TPU v8i con uno sfondo sfocato che mostra diverse schede a circuito stampato.

Tabella comparativa delle caratteristiche

Caratteristica	TPU 8t	TPU 8i
Carico di lavoro principale	Pre-addestramento su larga scala	Campionamento, somministrazione e ragionamento
Topologia di rete	toro 3D	Boardfly
Caratteristiche specializzate del chip	Motore di decodifica SparseCore (Embedding) e LLM	CAE (Collectives Acceleration Engine)
Capacità HBM	216 GB	288 GB
SRAM integrata sul chip (Vmem)	128 MB	384 MB
Picco di PFLOPs FP4	12.6	10.1
Larghezza di banda HBM	6, 528 GB/s	8.601 GB/s (~1, 3 volte la velocità di TPU 8t)
Intestazione CPU	Arm Axion	Arm Axion

Punti salienti dell’ipercomputer basato sull’intelligenza artificiale

Ecco i numerosi punti salienti dell’ipercomputer basato sull’intelligenza artificiale di Google che ne dimostrano le capacità innovative:

La TPU 8t è ottimizzata per l’addestramento, utilizzando l’Inter-Chip Interconnect (ICI) per scalare fino a 9.600 TPU e 2 PB di memoria condivisa in un singolo superpod, ottenendo una potenza di elaborazione tre volte superiore rispetto al suo predecessore con una maggiore efficienza energetica.
La TPU 8i sfrutta la nuova topologia Boardfly per la connessione diretta di 1.152 TPU, vantando una quantità di SRAM tre volte superiore rispetto ai modelli precedenti per supportare una maggiore capacità di archiviazione on-chip e implementando un CAE specializzato per migliorare le prestazioni.
Le GPU NVIDIA svolgono un ruolo fondamentale negli acceleratori di intelligenza artificiale offerti, e Google è stata tra le prime a introdurre la NVIDIA Vera Rubin NVL72, che si aggiunge ai modelli già esistenti basati su Hoover e Blackwell.
Google Cloud Axion introduce le istanze N4A Axion, lanciate a gennaio, che offrono un miglioramento del 100% nel rapporto prezzo-prestazioni rispetto alle istanze x86 comparabili.
La soluzione di calcolo ottimizzata per la rete si espande con le nuove serie di macchine C4N e M4N, progettate per potenziare le applicazioni che fanno un uso intensivo della rete e che offrono una larghezza di banda per vCPU quasi quattro volte superiore rispetto alle istanze standard.
Tra le innovazioni più significative nel campo dello storage si annoverano i progressi di Managed Lustre, in grado di raggiungere una velocità di trasmissione di 10 TB al secondo per l’addestramento accelerato, e Rapid Storage, che ha visto un aumento delle prestazioni da 6 TB/sec a 15 TB/sec, migliorando i carichi di lavoro di addestramento e inferenza.
I miglioramenti alla rete includono Virgo Network, un’architettura ottimizzata progettata per connettere i sistemi NVIDIA Vera Rubin NVL72 o i superpod TPU 8t per formare supercomputer di grandi dimensioni che migliorano l’addestramento distribuito di modelli sofisticati.

Tra i clienti di spicco dell’ipercomputer di Google basato sull’intelligenza artificiale figurano importanti aziende come il Dipartimento dell’Energia degli Stati Uniti, Boston Dynamics, Citadel Securities, Thinking Machine Labs e Axia Energy.

Fonte e immagini