Scontro tra chip AI: NVIDIA si trova ad affrontare la forte concorrenza delle TPU di Google, non solo di AMD o Intel

Scontro tra chip AI: NVIDIA si trova ad affrontare la forte concorrenza delle TPU di Google, non solo di AMD o Intel

Nel settore dell’intelligenza artificiale in rapida evoluzione, NVIDIA si trova ad affrontare sfide senza precedenti, non principalmente da parte di AMD o Intel, ma da parte di Google, un concorrente emergente che sta colmando significativamente il divario. Il CEO di NVIDIA, Jensen Huang, è profondamente consapevole di questo panorama competitivo.

A prima vista, potrebbe sembrare sorprendente che Google sia in prima linea nella corsa all’hardware per l’intelligenza artificiale, ma il gigante della tecnologia ha effettivamente gettato le basi lanciando il suo primo chip AI personalizzato, la TPU (Tensor Processing Unit), nel 2016, ben prima dei suoi concorrenti. Di recente, Google ha presentato la sua ultima innovazione, le TPU Ironwood di “settima generazione”, un lancio che ha generato notevole entusiasmo e ha creato il contesto per una sfida competitiva tra NVIDIA e Google. In questo articolo, approfondiamo gli aspetti critici che illustrano perché questo scontro sia fondamentale, concentrandoci in particolare sui progressi apportati dalle TPU Ironwood di Google.

TPU Ironwood di Google: 192 GB di HBM e notevoli miglioramenti delle prestazioni

Le TPU Ironwood di Google si stanno preparando per l’implementazione su vari carichi di lavoro e dovrebbero essere disponibili a breve. Commercializzato come un chip “focalizzato sull’inferenza”, Google afferma che Ironwood inaugura una nuova era nelle prestazioni di inferenza, migliorando l’efficienza nell’elaborazione general-purpose. La TPU v7 (Ironwood) è strategicamente progettata per eccellere nella transizione dall’addestramento dei modelli all’inferenza, destinata a dominare l’attuale panorama tecnologico. Ecco alcune specifiche degne di nota:

  • Prestazioni di picco migliorate di 10 volte rispetto alla TPU v5p.
  • Prestazioni per chip 4 volte migliori sia per l’addestramento che per l’inferenza rispetto a TPU v6e (Trillium).
  • Il silicio personalizzato più potente ed efficiente dal punto di vista energetico sviluppato da Google fino ad oggi.

Analizzando ulteriormente le specifiche, il chip Ironwood vanta ben 192 GB di memoria HBM da 7, 4 TB/s e può raggiungere l’incredibile cifra di 4.614 TFLOP di prestazioni di picco per chip, quasi 16 volte superiore rispetto alla TPU v4. Inoltre, con l’introduzione dell’Ironwood TPU Superpod, composto da 9.216 chip, Google è in grado di fornire ben 42, 5 exaFLOPS per carichi di lavoro di elaborazione aggregati FP8. Questa integrazione mette in risalto le innovative soluzioni di interconnessione di Google, che hanno superato NVLink di NVIDIA in termini di scalabilità.

Una grande stanza piena di file di rack per server, collegati in modo intricato da numerosi cavi colorati.
Ironwood SuperPod di Google

Concentrandosi sull’interconnettività, Google utilizza InterChip Interconnect (ICI), una rete robusta progettata per la scalabilità. Questa tecnologia consente la connessione di 43 blocchi (ciascuno contenente 64 chip) di Superpod su una rete da 1, 8 Petabyte. Utilizzando schede di rete (NIC) per le comunicazioni interne e un layout 3D Torus per le TPU, Google ottimizza l’interconnettività, migliorando efficacemente la scalabilità e la densità dei chip, un’area in cui supera l’offerta di NVIDIA.

Specifica Valore
Calcolo di picco per chip (FP8) ~ 4.614 TFLOPS
Capacità HBM per chip 192 GB HBM3e
Larghezza di banda della memoria per chip ~ 7, 2 TB/s
Dimensione massima del pod (# chip) 9.216 chip
Calcolo di picco per pod ~ 42, 5 ExaFLOPS
Memoria di sistema per pod (HBM) ~ 1, 77 PB
Larghezza di banda di interconnessione inter-chip (ICI) ~ 1, 2 Tb/s per collegamento
Miglioramento delle prestazioni ~ 16x su TPU v4

Le aspirazioni ASIC di Google: una vera minaccia alla supremazia dell’intelligenza artificiale di NVIDIA?

Mentre analizziamo il significato delle TPU Ironwood nell’attuale era dell’inferenza, è fondamentale riconoscere la crescente importanza delle capacità di inferenza. Tradizionalmente, l’addestramento dei modelli ha dominato il panorama dell’intelligenza artificiale, con le soluzioni di calcolo di NVIDIA ampiamente utilizzate grazie alle loro prestazioni superiori negli scenari di addestramento. Tuttavia, con la diffusione dei modelli tradizionali, le attività di inferenza sono aumentate drasticamente, spesso superando le esigenze di addestramento.

Le prestazioni di inferenza non sono determinate solo dai TFLOPS; fattori come latenza, throughput, efficienza e costo per query stanno diventando sempre più importanti. Esaminando le offerte Ironwood di Google, diventa chiaro perché potrebbero eclissare NVIDIA in questo ambito. Ad esempio, Ironwood offre una notevole memoria on-package, simile a quella delle GPU AI Blackwell B200 di NVIDIA. Tuttavia, la capacità di clustering di SuperPod con 9.216 chip espande significativamente la capacità di memoria complessiva.

Primo piano della scheda madre di un server che mostra blocchi di raffreddamento metallici, dissipatori di calore e tubi collegati per il raffreddamento a liquido.
Una scheda Ironwood che mostra tre TPU Ironwood collegati al raffreddamento a liquido.

Una maggiore capacità di memoria è fondamentale negli scenari di inferenza, poiché riduce al minimo i ritardi di comunicazione tra chip e aumenta le prestazioni di latenza nei modelli di grandi dimensioni, rafforzando l’attrattiva di Ironwood. Google ha progettato meticolosamente Ironwood per un ambiente a bassa latenza, migliorando al contempo l’efficienza energetica, un aspetto cruciale del suo previsto successo.

L’inferenza su larga scala richiede migliaia di chip in grado di gestire in modo continuo ed efficiente le richieste di query, rendendo i costi di implementazione e operativi una priorità rispetto alle prestazioni grezze per i fornitori di servizi cloud (CSP).A tal fine, Google ha ottenuto un duplice miglioramento dell’efficienza energetica con Ironwood, rendendo così le sue TPU più economicamente sostenibili per applicazioni di inferenza diffuse.

GPU NVIDIA Rubin CPX per grandi quantità di dati, con caratteristiche come la memoria GDDR7 da 128 GB e disponibile da fine 2026.
Immagine: NVIDIA Corporation

Il paradigma della competizione nell’intelligenza artificiale sta passando dal semplice raggiungimento del massimo numero di FLOPS a una battaglia più articolata che comprende capacità di gestione delle query, riduzione della latenza, costi operativi ed efficienza energetica. Questa evoluzione offre a Google una nuova opportunità per affermarsi in tempi rapidi, capitalizzando sulle potenziali debolezze del consolidato dominio di NVIDIA nel settore dell’intelligenza artificiale. In particolare, Ironwood sarà disponibile esclusivamente tramite Google Cloud, il che potrebbe facilitare il lock-in dell’ecosistema e potenzialmente compromettere la posizione consolidata di NVIDIA. I progressi iterativi delle TPU di Google ne sottolineano la natura competitiva, segnalando un cambiamento che dovrebbe trovare riscontro nella pianificazione strategica di NVIDIA.

Tuttavia, NVIDIA non rimane inerte di fronte a questa nuova sfida; sta introducendo Rubin CPX in risposta, con l’obiettivo di ritagliarsi una nicchia significativa con soluzioni rack-scale ottimizzate. Tuttavia, è sempre più chiaro che Google si sta affermando come un formidabile rivale di NVIDIA, mentre Intel e AMD sono attualmente indietro in termini di influenza e innovazione.

In un commento degno di nota, Jensen Huang ha riflettuto sulle capacità TPU di Google durante una precedente intervista, riconoscendo la complessità e la competitività delle loro offerte:

A questo punto…uno dei dibattiti più importanti…è la questione GPU contro ASIC, le TPU di Google, il Trainium di Amazon. Google…Hanno iniziato con TPU1 prima che tutto iniziasse…La sfida per chi costruisce ASIC.

TPU è su TPU 7. Sì. Giusto. Ed è una sfida anche per loro. Giusto. E quindi il lavoro che svolgono è incredibilmente duro.

Fonte e immagini

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *