
Auf der Hot Chips 2025 enthüllte AMD umfassende Details zu seinem neuesten KI-Beschleuniger Instinct MI350, der auf der innovativen CDNA 4-Architektur basiert. Diese Ankündigung erfolgt nur zwei Monate nach der Markteinführung der MI350-Serie, die speziell für anspruchsvolle KI-Workloads entwickelt wurde.
AMD enthüllt architektonische Einblicke in Instinct MI350 auf der Hot Chips 2025, positioniert für umfangreiche LLMs

Die MI350-Serie reagierte auf das exponentielle Wachstum großer Sprachmodelle (LLMs) und machte Fortschritte bei Datenformaten und Chipspeicherkapazitäten erforderlich. Durch die Erweiterung der Grenzen in diesen Bereichen konnte AMD die Leistung und Effizienz der KI-Verarbeitung deutlich steigern.

Die Verbesserungen der CDNA-4-Architektur ermöglichen eine deutliche Steigerung der Kapazität und Bandbreite des High Bandwidth Memory (HBM) und ermöglichen so schnelleres KI-Training und Inferenz in umfangreicheren Modellen. Die Chips verfügen über deutlich höhere Verbindungsgeschwindigkeiten und erreichen so eine bessere Energieeffizienz und Gesamtleistung.

Diese neue Architektur ermöglicht eine schnellere Verarbeitung durch optimierte Stromversorgung und verbesserte Konnektivität über das Infinity Fabric für eine bessere Bandbreiteneffizienz im Betrieb. Sie unterstützt außerdem verschiedene Datenformate mit geringerer Präzision, wie FP8 und die branchenüblichen mikroskalierten Typen MXFP6 und MXFP4.
Varianten und Spezifikationen der MI350-Serie
Die AMD MI350-Serie umfasst hauptsächlich den MI350X, ein luftgekühltes Design mit einer Gesamtplatinenleistung (TBP) von 1000 W und einer Spitzentaktfrequenz von 2, 2 GHz. Am oberen Ende der Produktpalette steht das Modell MI355X, das speziell für flüssigkeitsgekühlte Rechenzentren entwickelt wurde und über eine TBP von 1400 W und eine maximale Taktfrequenz von 2, 4 GHz verfügt.

Diese beeindruckenden Spezifikationen sind das Ergebnis der umfassenden technischen Expertise von AMD und zeichnen sich durch ein ausgeklügeltes Design mit 185 Milliarden Transistoren in einer 3D-Multi-Chiplet-Konfiguration aus. Dazu gehört auch der fortschrittliche HBM3e-Speicher. Zur Optimierung von Kosteneffizienz und Leistung werden sowohl 3-nm- als auch 6-nm-Prozesstechnologien eingesetzt.

Architekturaufschlüsselung und Funktionen
Die Architekturdetails zeigen insgesamt acht Accelerator Complex Dies (XCDs) pro MI350-Paket, die mit der führenden 3-nm-Technologie von TSMC hergestellt werden. Jeder Chip ist über eine robuste Infrastruktur verbunden, die auf maximalen Durchsatz ausgelegt ist.
Jeder I/O-Basischip arbeitet mit einem ausgereifteren 6-nm-Prozess, der höhere Ausbeuteraten und Kosteneffizienz gewährleistet. Die Chipkonfiguration ermöglicht eine effektive Speicherverwaltung über acht HBM3e-Standorte und bietet so beachtliche 288 GB Speicher für den gesamten Beschleuniger.

Darüber hinaus unterstützt das Speichersubsystem eine Vielzahl von Konfigurationen zur effizienten Verbesserung der Rechenleistung. Dazu gehören eine umfassende interne Speicherarchitektur und Cache-Tiering, die die Leistung bei datenintensiven Vorgängen maximieren.
Leistungskennzahlen und Wettbewerbsvorteile
In Bezug auf die reine Rechenleistung kann die MI350-Serie im Vergleich zu ihren Vorgängern erhebliche Verbesserungen erzielen und weist eine FP4/FP6-Rechenleistung von bis zu 20 PFLOPs auf – eine beeindruckende Leistungssteigerung um das Vierfache dank der Fortschritte in der HBM3e-Technologie und der damit verbundenen Cache-Verbesserungen.

AMD hat angekündigt, dass die Instinct MI350-Serie ab dem dritten Quartal 2025 über mehrere Vertriebspartner erhältlich sein wird. Auch künftige Entwicklungen sind in Sicht: Die Einführung der MI400-Serie ist für 2026 geplant.
Vergleich der AMD Instinct AI-Beschleuniger:
Beschleunigername | AMD Instinct MI500 | AMD Instinct MI400 | AMD Instinct MI350X | AMD Instinct MI325X | AMD Instinct MI300X | AMD Instinct MI250X |
---|---|---|---|---|---|---|
GPU-Architektur | CDNA Next / UDNA | CDNA Next / UDNA | CDNA 4 | Aqua Vanjaram (CDNA 3) | Aqua Vanjaram (CDNA 3) | Aldebaran (CDNA 2) |
GPU-Prozessknoten | Wird noch bekannt gegeben | Wird noch bekannt gegeben | 3 nm | 5 nm + 6 nm | 5 nm + 6 nm | 6 nm |
XCDs (Chiplets) | Wird noch bekannt gegeben | 8 (MCM) | 8 (MCM) | 8 (MCM) | 8 (MCM) | 2 (MCM), 1 (pro Würfel) |
GPU-Kerne | Wird noch bekannt gegeben | Wird noch bekannt gegeben | 16.384 | 19.456 | 19.456 | 14.080 |
Maximale Taktfrequenz | Wird noch bekannt gegeben | Wird noch bekannt gegeben | 2400 MHz | 2100 MHz | 2100 MHz | 1700 MHz |
INT8-Berechnung | Wird noch bekannt gegeben | Wird noch bekannt gegeben | 5200 TOPS | 2614 TOPS | 2614 TOPS | 383 TOPs |
FP6/FP4-Matrix | Wird noch bekannt gegeben | 40 PFLOPs | 20 PFLOPs | N / A | N / A | N / A |
FP8-Matrix | Wird noch bekannt gegeben | 20 PFLOPs | 5 PFLOPs | 2.6 PFLOPs | 2.6 PFLOPs | N / A |
FP16-Matrix | Wird noch bekannt gegeben | 10 PFLOPs | 2, 5 PFLOPs | 1.3 PFLOPs | 1.3 PFLOPs | 383 TFLOPs |
FP32-Vektor | Wird noch bekannt gegeben | Wird noch bekannt gegeben | 157, 3 TFLOPs | 163, 4 TFLOPs | 163, 4 TFLOPs | 95, 7 TFLOPs |
FP64-Vektor | Wird noch bekannt gegeben | Wird noch bekannt gegeben | 78, 6 TFLOPs | 81, 7 TFLOPs | 81, 7 TFLOPs | 47, 9 TFLOPs |
VRAM | Wird noch bekannt gegeben | 432 GB HBM4 | 288 GB HBM3e | 256 GB HBM3e | 192 GB HBM3 | 128 GB HBM2e |
Infinity Cache | Wird noch bekannt gegeben | Wird noch bekannt gegeben | 256 MB | 256 MB | 256 MB | N / A |
Speichertakt | Wird noch bekannt gegeben | 19, 6 TB/s | 8, 0 Gbit/s | 5, 9 Gbit/s | 5, 2 Gbit/s | 3, 2 Gbit/s |
Speicherbus | Wird noch bekannt gegeben | Wird noch bekannt gegeben | 8192 Bit | 8192 Bit | 8192 Bit | 8192 Bit |
Speicherbandbreite | Wird noch bekannt gegeben | Wird noch bekannt gegeben | 8 TB/s | 6, 0 TB/s | 5, 3 TB/s | 3, 2 TB/s |
Formfaktor | Wird noch bekannt gegeben | Wird noch bekannt gegeben | OAM | OAM | OAM | OAM |
Kühlung | Wird noch bekannt gegeben | Wird noch bekannt gegeben | Passiv / Flüssig | Passive Kühlung | Passive Kühlung | Passive Kühlung |
TDP (Max.) | Wird noch bekannt gegeben | Wird noch bekannt gegeben | 1400 W (355X) | 1000 W | 750 W | 560 W |
Weitere Einzelheiten finden Sie in der Quelle.
Schreibe einen Kommentar