
Podczas konferencji Hot Chips 2025 firma AMD ujawniła szczegółowe informacje na temat swojego najnowszego akceleratora AI Instinct MI350, opartego na innowacyjnej architekturze CDNA 4. Ogłoszenie to nastąpiło zaledwie dwa miesiące po premierze serii MI350, zaprojektowanej specjalnie z myślą o wymagających obciążeniach AI.
AMD ujawnia architektoniczne informacje o procesorze Instinct MI350 na konferencji Hot Chips 2025, przygotowanym na rozwój LLM

Seria MI350 stanowiła odpowiedź na wykładniczy wzrost liczby modeli dużych języków (LLM), wymuszając konieczność udoskonalenia zarówno formatów danych, jak i pojemności pamięci układów scalonych. Przesuwając granice w tych obszarach, AMD znacząco zwiększyło wydajność i efektywność przetwarzania AI.

Udoskonalenia w architekturze CDNA-4 zapewniają znaczący wzrost zarówno pojemności, jak i przepustowości pamięci o dużej przepustowości (HBM), umożliwiając szybsze szkolenie sztucznej inteligencji i wnioskowanie w ramach bardziej rozbudowanych modeli. Układy scalone charakteryzują się znacząco zwiększoną prędkością łącza, co przekłada się na lepszą efektywność energetyczną i ogólną wydajność.

Ta nowa architektura zapewnia szybsze przetwarzanie poprzez optymalizację dostarczania energii i poprawę łączności poprzez Infinity Fabric, co przekłada się na lepszą efektywność wykorzystania przepustowości podczas operacji. Obsługuje również różne formaty danych o niższej precyzji, takie jak FP8 oraz standardowe w branży mikroskalowe formaty MXFP6 i MXFP4.
Warianty i specyfikacje serii MI350
Seria AMD MI350 obejmuje przede wszystkim model MI350X, chłodzony powietrzem, o całkowitej mocy (TBP) 1000 W i szczytowym taktowaniu 2, 2 GHz. Z kolei model MI355X, przeznaczony do centrów danych chłodzonych cieczą, charakteryzuje się mocą 1400 W i maksymalnym taktowaniem 2, 4 GHz.

Te imponujące parametry wynikają z bogatego doświadczenia inżynieryjnego AMD, obejmującego zaawansowaną konstrukcję 185 miliardów tranzystorów w konfiguracji 3D Multi-Chiplet. Obejmuje to zaawansowaną pamięć HBM3e i wykorzystuje technologie procesowe 3 nm i 6 nm, aby zoptymalizować opłacalność i wydajność.

Rozkład i możliwości architektoniczne
Szczegóły architektoniczne ujawniają łącznie osiem układów scalonych Accelerator Complex Dies (XCD) w obudowie MI350, wykonanych w wiodącej technologii 3 nm firmy TSMC. Każdy układ jest połączony za pomocą solidnej infrastruktury zaprojektowanej z myślą o maksymalnej przepustowości.
Każdy moduł I/O Base Die działa w bardziej dopracowanym procesie technologicznym 6 nm, co zapewnia wyższą wydajność i ekonomiczność. Konfiguracja modułu ułatwia efektywne zarządzanie pamięcią poprzez osiem węzłów HBM3e, zapewniając imponującą pojemność 288 GB w całym akceleratorze.

Ponadto podsystem pamięci obsługuje różnorodne konfiguracje, które efektywnie zwiększają możliwości obliczeniowe. Obejmuje to kompleksową architekturę pamięci wewnętrznej i warstwowanie pamięci podręcznej, zaprojektowane w celu maksymalizacji wydajności podczas operacji intensywnie przetwarzających dane.
Wskaźniki wydajności i przewaga konkurencyjna
Jeśli chodzi o moc obliczeniową, seria MI350 oferuje znaczną poprawę w porównaniu ze swoimi poprzednikami, prezentując do 20 PFLOP-ów możliwości obliczeniowych FP4/FP6 — imponujący, czterokrotny wzrost wydajności dzięki udoskonaleniom w technologii HBM3e i związanym z nimi udoskonaleniom pamięci podręcznej.

Firma AMD poinformowała, że seria Instinct MI350 będzie dostępna za pośrednictwem wielu partnerów dystrybucyjnych od trzeciego kwartału 2025 roku. Planowane są również dalsze udoskonalenia, a wprowadzenie na rynek serii MI400 planowane jest na 2026 rok.
Porównanie akceleratorów AI AMD Instinct:
Nazwa akceleratora | AMD Instinct MI500 | AMD Instinct MI400 | AMD Instinct MI350X | AMD Instinct MI325X | AMD Instinct MI300X | AMD Instinct MI250X |
---|---|---|---|---|---|---|
Architektura GPU | CDNA Next / UDNA | CDNA Next / UDNA | CDNA 4 | Aqua Vanjaram (CDNA 3) | Aqua Vanjaram (CDNA 3) | Aldebaran (CDNA 2) |
Węzeł procesu GPU | Do ustalenia | Do ustalenia | 3nm | 5 nm + 6 nm | 5 nm + 6 nm | 6 nm |
XCD (chiplety) | Do ustalenia | 8 (MCM) | 8 (MCM) | 8 (MCM) | 8 (MCM) | 2 (MCM), 1 (na kostkę) |
Rdzenie GPU | Do ustalenia | Do ustalenia | 16 384 | 19 456 | 19 456 | 14 080 |
Maksymalna prędkość zegara | Do ustalenia | Do ustalenia | 2400 MHz | 2100 MHz | 2100 MHz | 1700 MHz |
Obliczenia INT8 | Do ustalenia | Do ustalenia | 5200 TOPS | 2614 TOPÓW | 2614 TOPÓW | 383 TOP-y |
Macierz FP6/FP4 | Do ustalenia | 40 PFLOP-ów | 20 PFLOP-ów | Nie dotyczy | Nie dotyczy | Nie dotyczy |
Macierz FP8 | Do ustalenia | 20 PFLOP-ów | 5 PFLOP-ów | 2, 6 PFLOP-ów | 2, 6 PFLOP-ów | Nie dotyczy |
Macierz FP16 | Do ustalenia | 10 PFLOP-ów | 2, 5 PFLOP-ów | 1, 3 PFLOP-ów | 1, 3 PFLOP-ów | 383 teraflopy |
Wektor FP32 | Do ustalenia | Do ustalenia | 157, 3 teraflopów | 163, 4 teraflopów | 163, 4 teraflopów | 95, 7 teraflopów |
Wektor FP64 | Do ustalenia | Do ustalenia | 78, 6 teraflopów | 81, 7 teraflopów | 81, 7 teraflopów | 47, 9 teraflopów |
Pamięć VRAM | Do ustalenia | 432 GB HBM4 | 288 GB HBM3e | 256 GB HBM3e | 192 GB HBM3 | 128 GB HBM2e |
Pamięć podręczna Infinity | Do ustalenia | Do ustalenia | 256 MB | 256 MB | 256 MB | Nie dotyczy |
Zegar pamięci | Do ustalenia | 19, 6 TB/s | 8, 0 Gb/s | 5, 9 Gb/s | 5, 2 Gb/s | 3, 2 Gb/s |
Magistrala pamięci | Do ustalenia | Do ustalenia | 8192-bit | 8192-bit | 8192-bit | 8192-bit |
Przepustowość pamięci | Do ustalenia | Do ustalenia | 8 TB/s | 6, 0 TB/s | 5, 3 TB/s | 3, 2 TB/s |
Współczynnik kształtu | Do ustalenia | Do ustalenia | OAM | OAM | OAM | OAM |
Chłodzenie | Do ustalenia | Do ustalenia | Pasywny / Ciecz | Chłodzenie pasywne | Chłodzenie pasywne | Chłodzenie pasywne |
TDP (maks.) | Do ustalenia | Do ustalenia | 1400 W (355X) | 1000 W | 750 W | 560 W |
Więcej szczegółów znajdziesz u źródła.
Dodaj komentarz