
In occasione di Hot Chips 2025, AMD ha svelato dettagli completi sul suo ultimo acceleratore AI Instinct MI350, basato sull’innovativa architettura CDNA 4. Questo annuncio arriva appena due mesi dopo il lancio iniziale della serie MI350, progettata specificamente per carichi di lavoro AI impegnativi.
AMD svela le intuizioni architettoniche di Instinct MI350 a Hot Chips 2025, posizionate per LLM espansivi

La serie MI350 ha risposto alla crescita esponenziale dei modelli linguistici di grandi dimensioni (LLM), rendendo sempre più necessari progressi sia nei formati dei dati che nelle capacità di memoria dei chip. Spingendo i limiti in questi ambiti, AMD ha migliorato significativamente le prestazioni e l’efficienza dell’elaborazione AI.

I miglioramenti nell’architettura CDNA-4 offrono un incremento sostanziale sia in termini di capacità che di larghezza di banda per la memoria ad alta larghezza di banda (HBM), facilitando un addestramento e un’inferenza AI più rapidi su modelli più estesi. I chip hanno notevolmente aumentato la velocità di collegamento, ottenendo una migliore efficienza energetica e prestazioni complessive.

Questa nuova architettura consente un’elaborazione più rapida ottimizzando l’erogazione di potenza e migliorando la connettività tramite Infinity Fabric, per una maggiore efficienza della larghezza di banda durante le operazioni. Supporta inoltre diversi formati di dati a bassa precisione, come FP8 e i formati MXFP6 e MXFP4 su scala micro, standard del settore.
Varianti e specifiche della serie MI350
La serie AMD MI350 comprende principalmente il modello MI350X, un modello raffreddato ad aria con una potenza totale della scheda (TBP) di 1000 W e una velocità di clock massima di 2, 2 GHz. Nella fascia più alta, il modello MI355X è pensato per i data center raffreddati a liquido, vantando una TBP di 1400 W e una velocità di clock massima di 2, 4 GHz.

Queste specifiche impressionanti sono il frutto della vasta competenza ingegneristica di AMD, che vanta un sofisticato design con 185 miliardi di transistor all’interno di una configurazione 3D Multi-Chiplet. Questa include la memoria HBM3e avanzata e utilizza tecnologie di processo a 3 e 6 nm per ottimizzare costi e prestazioni.

Analisi architettonica e capacità
I dettagli architettonici rivelano un totale di otto Accelerator Complex Die (XCD) utilizzati per ogni package MI350, realizzati utilizzando la tecnologia leader a 3 nm di TSMC. Ogni chip è connesso tramite una solida infrastruttura progettata per la massima produttività.
Ogni die di base I/O utilizza un processo a 6 nm più maturo, garantendo tassi di rendimento e costi più elevati. La configurazione del die facilita la gestione efficace della memoria attraverso otto siti HBM3e, fornendo ben 288 GB di memoria sull’acceleratore.

Inoltre, il sottosistema di memoria supporta una varietà di configurazioni per migliorare in modo efficiente le capacità di elaborazione. Tra queste, un’architettura di memoria interna completa e un tiering della cache progettati per massimizzare le prestazioni durante le operazioni ad alta intensità di dati.
Metriche di performance e vantaggio competitivo
In termini di potenza di calcolo grezza, la serie MI350 riesce a fornire notevoli miglioramenti rispetto ai suoi predecessori, mostrando fino a 20 PFLOP di capacità di calcolo FP4/FP6, un impressionante aumento delle prestazioni di quattro volte grazie ai progressi nella tecnologia HBM3e e ai miglioramenti della cache associati.

AMD ha dichiarato che la serie Instinct MI350 sarà disponibile tramite diversi partner di distribuzione a partire dal terzo trimestre del 2025. Sono previsti anche sviluppi futuri, con la serie MI400 che dovrebbe essere lanciata nel 2026.
Confronto tra gli acceleratori AMD Instinct AI:
Nome dell’acceleratore | AMD Instinct MI500 | AMD Instinct MI400 | AMD Instinct MI350X | AMD Instinct MI325X | AMD Instinct MI300X | AMD Instinct MI250X |
---|---|---|---|---|---|---|
Architettura GPU | CDNA Next / UDNA | CDNA Next / UDNA | CDNA 4 | Aqua Vanjaram (CDNA 3) | Aqua Vanjaram (CDNA 3) | Aldebaran (CDNA 2) |
Nodo di processo GPU | Da definire | Da definire | 3 nm | 5nm + 6nm | 5nm + 6nm | 6 nm |
XCD (chiplet) | Da definire | 8 (MCM) | 8 (MCM) | 8 (MCM) | 8 (MCM) | 2 (MCM), 1 (per dado) |
Core GPU | Da definire | Da definire | 16.384 | 19.456 | 19.456 | 14.080 |
Velocità massima di clock | Da definire | Da definire | 2400 MHz | 2100 MHz | 2100 MHz | 1700 MHz |
Calcolo INT8 | Da definire | Da definire | 5200 TOP | 2614 TOP | 2614 TOP | 383 TOP |
Matrice FP6/FP4 | Da definire | 40 PFLOP | 20 PFLOP | N / A | N / A | N / A |
Matrice FP8 | Da definire | 20 PFLOP | 5 PFLOP | 2, 6 PFLOP | 2, 6 PFLOP | N / A |
Matrice FP16 | Da definire | 10 PFLOP | 2, 5 PFLOP | 1.3 PFLOP | 1.3 PFLOP | 383 TFLOP |
Vettore FP32 | Da definire | Da definire | 157, 3 TFLOP | 163, 4 TFLOP | 163, 4 TFLOP | 95, 7 TFLOP |
Vettore FP64 | Da definire | Da definire | 78, 6 TFLOP | 81, 7 TFLOP | 81, 7 TFLOP | 47, 9 TFLOP |
Memoria virtuale | Da definire | 432 GB HBM4 | 288 GB HBM3e | 256 GB HBM3e | 192 GB HBM3 | 128 GB HBM2e |
Cache infinita | Da definire | Da definire | 256 MB | 256 MB | 256 MB | N / A |
Orologio di memoria | Da definire | 19, 6 TB/s | 8, 0 Gbps | 5, 9 Gbps | 5, 2 Gbps | 3, 2 Gbps |
Bus di memoria | Da definire | Da definire | 8192 bit | 8192 bit | 8192 bit | 8192 bit |
Larghezza di banda della memoria | Da definire | Da definire | 8 TB/s | 6, 0 TB/s | 5, 3 TB/s | 3, 2 TB/s |
Fattore di forma | Da definire | Da definire | OAM | OAM | OAM | OAM |
Raffreddamento | Da definire | Da definire | Passivo / Liquido | Raffreddamento passivo | Raffreddamento passivo | Raffreddamento passivo |
TDP (massimo) | Da definire | Da definire | 1400W (355X) | 1000W | 750W | 560W |
Per maggiori dettagli, visita la fonte.
Lascia un commento