GPU AMD Instinct MI350: libera la potenza dell’intelligenza artificiale con chiplet 3D da 3 nm, architettura CDNA 4, 185 miliardi di transistor, TBP da 1400 W e 288 GB di memoria per oltre 4000 miliardi di supporto LLM

GPU AMD Instinct MI350: libera la potenza dell’intelligenza artificiale con chiplet 3D da 3 nm, architettura CDNA 4, 185 miliardi di transistor, TBP da 1400 W e 288 GB di memoria per oltre 4000 miliardi di supporto LLM

In occasione di Hot Chips 2025, AMD ha svelato dettagli completi sul suo ultimo acceleratore AI Instinct MI350, basato sull’innovativa architettura CDNA 4. Questo annuncio arriva appena due mesi dopo il lancio iniziale della serie MI350, progettata specificamente per carichi di lavoro AI impegnativi.

AMD svela le intuizioni architettoniche di Instinct MI350 a Hot Chips 2025, posizionate per LLM espansivi

GPU AMD Instinct MI350 presentate a Hot Chips 2025.

La serie MI350 ha risposto alla crescita esponenziale dei modelli linguistici di grandi dimensioni (LLM), rendendo sempre più necessari progressi sia nei formati dei dati che nelle capacità di memoria dei chip. Spingendo i limiti in questi ambiti, AMD ha migliorato significativamente le prestazioni e l’efficienza dell’elaborazione AI.

Tendenze nei modelli di intelligenza artificiale di grandi dimensioni: crescita del conteggio dei parametri, lunghezza del contesto, elaborazione dell'intelligenza artificiale agentiva

I miglioramenti nell’architettura CDNA-4 offrono un incremento sostanziale sia in termini di capacità che di larghezza di banda per la memoria ad alta larghezza di banda (HBM), facilitando un addestramento e un’inferenza AI più rapidi su modelli più estesi. I chip hanno notevolmente aumentato la velocità di collegamento, ottenendo una migliore efficienza energetica e prestazioni complessive.

Esigenze dell'intelligenza artificiale generativa: memoria GPU, larghezza di banda, ALU, efficienza energetica, addestramento di modelli su larga scala.

Questa nuova architettura consente un’elaborazione più rapida ottimizzando l’erogazione di potenza e migliorando la connettività tramite Infinity Fabric, per una maggiore efficienza della larghezza di banda durante le operazioni. Supporta inoltre diversi formati di dati a bassa precisione, come FP8 e i formati MXFP6 e MXFP4 su scala micro, standard del settore.

Varianti e specifiche della serie MI350

La serie AMD MI350 comprende principalmente il modello MI350X, un modello raffreddato ad aria con una potenza totale della scheda (TBP) di 1000 W e una velocità di clock massima di 2, 2 GHz. Nella fascia più alta, il modello MI355X è pensato per i data center raffreddati a liquido, vantando una TBP di 1400 W e una velocità di clock massima di 2, 4 GHz.

Specifiche della GPU AMD Instinct MI350: transistor da 185B e design avanzato del chiplet 3D.

Queste specifiche impressionanti sono il frutto della vasta competenza ingegneristica di AMD, che vanta un sofisticato design con 185 miliardi di transistor all’interno di una configurazione 3D Multi-Chiplet. Questa include la memoria HBM3e avanzata e utilizza tecnologie di processo a 3 e 6 nm per ottimizzare costi e prestazioni.

Diagramma dell'architettura del chiplet AMD Instinct MI350.

Analisi architettonica e capacità

I dettagli architettonici rivelano un totale di otto Accelerator Complex Die (XCD) utilizzati per ogni package MI350, realizzati utilizzando la tecnologia leader a 3 nm di TSMC. Ogni chip è connesso tramite una solida infrastruttura progettata per la massima produttività.

Ogni die di base I/O utilizza un processo a 6 nm più maturo, garantendo tassi di rendimento e costi più elevati. La configurazione del die facilita la gestione efficace della memoria attraverso otto siti HBM3e, fornendo ben 288 GB di memoria sull’acceleratore.

Diagramma del chiplet GPU AMD Instinct MI350.

Inoltre, il sottosistema di memoria supporta una varietà di configurazioni per migliorare in modo efficiente le capacità di elaborazione. Tra queste, un’architettura di memoria interna completa e un tiering della cache progettati per massimizzare le prestazioni durante le operazioni ad alta intensità di dati.

Metriche di performance e vantaggio competitivo

In termini di potenza di calcolo grezza, la serie MI350 riesce a fornire notevoli miglioramenti rispetto ai suoi predecessori, mostrando fino a 20 PFLOP di capacità di calcolo FP4/FP6, un impressionante aumento delle prestazioni di quattro volte grazie ai progressi nella tecnologia HBM3e e ai miglioramenti della cache associati.

Miglioramento delle prestazioni della GPU AMD Instinct MI350 rispetto alla concorrenza.

AMD ha dichiarato che la serie Instinct MI350 sarà disponibile tramite diversi partner di distribuzione a partire dal terzo trimestre del 2025. Sono previsti anche sviluppi futuri, con la serie MI400 che dovrebbe essere lanciata nel 2026.

Confronto tra gli acceleratori AMD Instinct AI:

Nome dell’acceleratore AMD Instinct MI500 AMD Instinct MI400 AMD Instinct MI350X AMD Instinct MI325X AMD Instinct MI300X AMD Instinct MI250X
Architettura GPU CDNA Next / UDNA CDNA Next / UDNA CDNA 4 Aqua Vanjaram (CDNA 3) Aqua Vanjaram (CDNA 3) Aldebaran (CDNA 2)
Nodo di processo GPU Da definire Da definire 3 nm 5nm + 6nm 5nm + 6nm 6 nm
XCD (chiplet) Da definire 8 (MCM) 8 (MCM) 8 (MCM) 8 (MCM) 2 (MCM), 1 (per dado)
Core GPU Da definire Da definire 16.384 19.456 19.456 14.080
Velocità massima di clock Da definire Da definire 2400 MHz 2100 MHz 2100 MHz 1700 MHz
Calcolo INT8 Da definire Da definire 5200 TOP 2614 TOP 2614 TOP 383 TOP
Matrice FP6/FP4 Da definire 40 PFLOP 20 PFLOP N / A N / A N / A
Matrice FP8 Da definire 20 PFLOP 5 PFLOP 2, 6 PFLOP 2, 6 PFLOP N / A
Matrice FP16 Da definire 10 PFLOP 2, 5 PFLOP 1.3 PFLOP 1.3 PFLOP 383 TFLOP
Vettore FP32 Da definire Da definire 157, 3 TFLOP 163, 4 TFLOP 163, 4 TFLOP 95, 7 TFLOP
Vettore FP64 Da definire Da definire 78, 6 TFLOP 81, 7 TFLOP 81, 7 TFLOP 47, 9 TFLOP
Memoria virtuale Da definire 432 GB HBM4 288 GB HBM3e 256 GB HBM3e 192 GB HBM3 128 GB HBM2e
Cache infinita Da definire Da definire 256 MB 256 MB 256 MB N / A
Orologio di memoria Da definire 19, 6 TB/s 8, 0 Gbps 5, 9 Gbps 5, 2 Gbps 3, 2 Gbps
Bus di memoria Da definire Da definire 8192 bit 8192 bit 8192 bit 8192 bit
Larghezza di banda della memoria Da definire Da definire 8 TB/s 6, 0 TB/s 5, 3 TB/s 3, 2 TB/s
Fattore di forma Da definire Da definire OAM OAM OAM OAM
Raffreddamento Da definire Da definire Passivo / Liquido Raffreddamento passivo Raffreddamento passivo Raffreddamento passivo
TDP (massimo) Da definire Da definire 1400W (355X) 1000W 750W 560W

Per maggiori dettagli, visita la fonte.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *