AMD Instinct MI350 GPU: Entfesselt KI-Power mit 3-nm-3D-Chiplet, CDNA 4-Architektur, 185 Milliarden Transistoren, 1400 W TBP und 288 GB Speicher für über 4000 B LLM-Unterstützung

AMD Instinct MI350 GPU: Entfesselt KI-Power mit 3-nm-3D-Chiplet, CDNA 4-Architektur, 185 Milliarden Transistoren, 1400 W TBP und 288 GB Speicher für über 4000 B LLM-Unterstützung

Auf der Hot Chips 2025 enthüllte AMD umfassende Details zu seinem neuesten KI-Beschleuniger Instinct MI350, der auf der innovativen CDNA 4-Architektur basiert. Diese Ankündigung erfolgt nur zwei Monate nach der Markteinführung der MI350-Serie, die speziell für anspruchsvolle KI-Workloads entwickelt wurde.

AMD enthüllt architektonische Einblicke in Instinct MI350 auf der Hot Chips 2025, positioniert für umfangreiche LLMs

AMD Instinct MI350 GPUs auf der Hot Chips 2025 vorgestellt.

Die MI350-Serie reagierte auf das exponentielle Wachstum großer Sprachmodelle (LLMs) und machte Fortschritte bei Datenformaten und Chipspeicherkapazitäten erforderlich. Durch die Erweiterung der Grenzen in diesen Bereichen konnte AMD die Leistung und Effizienz der KI-Verarbeitung deutlich steigern.

Trends bei großen KI-Modellen: Zunahme der Parameteranzahl, Kontextlänge, agentenbasierte KI-Verarbeitung

Die Verbesserungen der CDNA-4-Architektur ermöglichen eine deutliche Steigerung der Kapazität und Bandbreite des High Bandwidth Memory (HBM) und ermöglichen so schnelleres KI-Training und Inferenz in umfangreicheren Modellen. Die Chips verfügen über deutlich höhere Verbindungsgeschwindigkeiten und erreichen so eine bessere Energieeffizienz und Gesamtleistung.

Anforderungen der generativen KI: GPU-Speicher, Bandbreite, ALUs, Energieeffizienz, Training groß angelegter Modelle.

Diese neue Architektur ermöglicht eine schnellere Verarbeitung durch optimierte Stromversorgung und verbesserte Konnektivität über das Infinity Fabric für eine bessere Bandbreiteneffizienz im Betrieb. Sie unterstützt außerdem verschiedene Datenformate mit geringerer Präzision, wie FP8 und die branchenüblichen mikroskalierten Typen MXFP6 und MXFP4.

Varianten und Spezifikationen der MI350-Serie

Die AMD MI350-Serie umfasst hauptsächlich den MI350X, ein luftgekühltes Design mit einer Gesamtplatinenleistung (TBP) von 1000 W und einer Spitzentaktfrequenz von 2, 2 GHz. Am oberen Ende der Produktpalette steht das Modell MI355X, das speziell für flüssigkeitsgekühlte Rechenzentren entwickelt wurde und über eine TBP von 1400 W und eine maximale Taktfrequenz von 2, 4 GHz verfügt.

AMD Instinct MI350 GPU-Spezifikationen: 185B-Transistoren und fortschrittliches 3D-Chiplet-Design.

Diese beeindruckenden Spezifikationen sind das Ergebnis der umfassenden technischen Expertise von AMD und zeichnen sich durch ein ausgeklügeltes Design mit 185 Milliarden Transistoren in einer 3D-Multi-Chiplet-Konfiguration aus. Dazu gehört auch der fortschrittliche HBM3e-Speicher. Zur Optimierung von Kosteneffizienz und Leistung werden sowohl 3-nm- als auch 6-nm-Prozesstechnologien eingesetzt.

Diagramm der AMD Instinct MI350-Chiplet-Architektur.

Architekturaufschlüsselung und Funktionen

Die Architekturdetails zeigen insgesamt acht Accelerator Complex Dies (XCDs) pro MI350-Paket, die mit der führenden 3-nm-Technologie von TSMC hergestellt werden. Jeder Chip ist über eine robuste Infrastruktur verbunden, die auf maximalen Durchsatz ausgelegt ist.

Jeder I/O-Basischip arbeitet mit einem ausgereifteren 6-nm-Prozess, der höhere Ausbeuteraten und Kosteneffizienz gewährleistet. Die Chipkonfiguration ermöglicht eine effektive Speicherverwaltung über acht HBM3e-Standorte und bietet so beachtliche 288 GB Speicher für den gesamten Beschleuniger.

AMD Instinct MI350 GPU-Chiplet-Diagramm.

Darüber hinaus unterstützt das Speichersubsystem eine Vielzahl von Konfigurationen zur effizienten Verbesserung der Rechenleistung. Dazu gehören eine umfassende interne Speicherarchitektur und Cache-Tiering, die die Leistung bei datenintensiven Vorgängen maximieren.

Leistungskennzahlen und Wettbewerbsvorteile

In Bezug auf die reine Rechenleistung kann die MI350-Serie im Vergleich zu ihren Vorgängern erhebliche Verbesserungen erzielen und weist eine FP4/FP6-Rechenleistung von bis zu 20 PFLOPs auf – eine beeindruckende Leistungssteigerung um das Vierfache dank der Fortschritte in der HBM3e-Technologie und der damit verbundenen Cache-Verbesserungen.

Leistungssteigerung der AMD Instinct MI350 GPU im Vergleich zur Konkurrenz.

AMD hat angekündigt, dass die Instinct MI350-Serie ab dem dritten Quartal 2025 über mehrere Vertriebspartner erhältlich sein wird. Auch künftige Entwicklungen sind in Sicht: Die Einführung der MI400-Serie ist für 2026 geplant.

Vergleich der AMD Instinct AI-Beschleuniger:

Beschleunigername AMD Instinct MI500 AMD Instinct MI400 AMD Instinct MI350X AMD Instinct MI325X AMD Instinct MI300X AMD Instinct MI250X
GPU-Architektur CDNA Next / UDNA CDNA Next / UDNA CDNA 4 Aqua Vanjaram (CDNA 3) Aqua Vanjaram (CDNA 3) Aldebaran (CDNA 2)
GPU-Prozessknoten Wird noch bekannt gegeben Wird noch bekannt gegeben 3 nm 5 nm + 6 nm 5 nm + 6 nm 6 nm
XCDs (Chiplets) Wird noch bekannt gegeben 8 (MCM) 8 (MCM) 8 (MCM) 8 (MCM) 2 (MCM), 1 (pro Würfel)
GPU-Kerne Wird noch bekannt gegeben Wird noch bekannt gegeben 16.384 19.456 19.456 14.080
Maximale Taktfrequenz Wird noch bekannt gegeben Wird noch bekannt gegeben 2400 MHz 2100 MHz 2100 MHz 1700 MHz
INT8-Berechnung Wird noch bekannt gegeben Wird noch bekannt gegeben 5200 TOPS 2614 TOPS 2614 TOPS 383 TOPs
FP6/FP4-Matrix Wird noch bekannt gegeben 40 PFLOPs 20 PFLOPs N / A N / A N / A
FP8-Matrix Wird noch bekannt gegeben 20 PFLOPs 5 PFLOPs 2.6 PFLOPs 2.6 PFLOPs N / A
FP16-Matrix Wird noch bekannt gegeben 10 PFLOPs 2, 5 PFLOPs 1.3 PFLOPs 1.3 PFLOPs 383 TFLOPs
FP32-Vektor Wird noch bekannt gegeben Wird noch bekannt gegeben 157, 3 TFLOPs 163, 4 TFLOPs 163, 4 TFLOPs 95, 7 TFLOPs
FP64-Vektor Wird noch bekannt gegeben Wird noch bekannt gegeben 78, 6 TFLOPs 81, 7 TFLOPs 81, 7 TFLOPs 47, 9 TFLOPs
VRAM Wird noch bekannt gegeben 432 GB HBM4 288 GB HBM3e 256 GB HBM3e 192 GB HBM3 128 GB HBM2e
Infinity Cache Wird noch bekannt gegeben Wird noch bekannt gegeben 256 MB 256 MB 256 MB N / A
Speichertakt Wird noch bekannt gegeben 19, 6 TB/s 8, 0 Gbit/s 5, 9 Gbit/s 5, 2 Gbit/s 3, 2 Gbit/s
Speicherbus Wird noch bekannt gegeben Wird noch bekannt gegeben 8192 Bit 8192 Bit 8192 Bit 8192 Bit
Speicherbandbreite Wird noch bekannt gegeben Wird noch bekannt gegeben 8 TB/s 6, 0 TB/s 5, 3 TB/s 3, 2 TB/s
Formfaktor Wird noch bekannt gegeben Wird noch bekannt gegeben OAM OAM OAM OAM
Kühlung Wird noch bekannt gegeben Wird noch bekannt gegeben Passiv / Flüssig Passive Kühlung Passive Kühlung Passive Kühlung
TDP (Max.) Wird noch bekannt gegeben Wird noch bekannt gegeben 1400 W (355X) 1000 W 750 W 560 W

Weitere Einzelheiten finden Sie in der Quelle.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert