Rozszerzenia AI Compute Extensions (ACE) mają na celu transformację krajobrazu sztucznej inteligencji poprzez zwiększenie wydajności mnożenia macierzy. Zarówno Intel, jak i AMD współpracują, aby dostosować swoje strategie w ramach ujednoliconej architektury x86, koncentrując się na zapewnieniu doskonałych możliwości obliczeniowych dla aplikacji AI.
ACE: katalizator ujednoliconej strategii x86 firm Intel i AMD w erze sztucznej inteligencji
Aby ulepszyć ekosystem x86, firmy Intel i AMD powołały w zeszłym roku „Grupę Doradczą Ekosystemu x86”.Celem tej inicjatywy jest standaryzacja funkcji w różnych architekturach, co zwiększy dostępność, skalowalność i gotowość x86 na przyszłość. Grupa wprowadziła cztery kluczowe funkcje: FRED, AVX10, ChkTag i ACE.
Niedawna publikacja dokumentu ACE Whitepaper przez firmy AMD i Intel rzuca światło na postęp i potencjał tej nowej funkcji przeznaczonej dla układów x86.
Wkład EAG ułatwił współpracę AMD i Intela w celu udoskonalenia architektury zestawu instrukcji ACE (ISA).Ten wspólny wysiłek przyniósł szereg pozytywnych zmian, uwzględniając wkład obu organizacji i wykorzystując wiedzę rozległej społeczności EAG. AMD i Intel wspólnie dążą do skoordynowania swoich przyszłych działań w zakresie ACE i AVX10, aby otworzyć nowe możliwości w obszarze sztucznej inteligencji i różnych domen obciążeń. Biorąc pod uwagę powszechną adopcję i wysoką wydajność architektury x86, dodanie ACE do architektury ISA znacząco zwiększa możliwości ekosystemu x86.
W niniejszym artykule przedstawiono rozszerzenia AI Compute Extensions dla architektury ISA x86, podkreślając znaczące udoskonalenia w zakresie wydajności mnożenia macierzy, skalowalności i efektywności energetycznej. ACE płynnie integruje się z AVX10, zapewniając niskooporowe i szeroko stosowane rozwiązanie do akceleracji macierzy dla architektury x86.
Sercem wielu sieci neuronowych i dużych modeli językowych jest mnożenie macierzy. Chociaż istniejące rozszerzenia SIMD, takie jak AVX10, mogą wykonywać te operacje, ich ograniczenia w zakresie skalowalności i gęstości obliczeniowej stanowią wyzwanie. Chociaż techniki takie jak przyspieszone mnożenie macierzy oferują lepszą wydajność, często nie stanowią one najefektywniejszego rozwiązania.

Celem EAG w przypadku ACE jest zwiększenie możliwości mnożenia macierzy przy jednoczesnym zapewnieniu większej elastyczności i skalowalności. To rozwiązanie umożliwia ponowne wykorzystanie istniejących optymalizacji AVX10, co prowadzi do powstania wszechstronnego frameworka akceleracji macierzy, który można zastosować zarówno na laptopach, jak i w środowiskach obliczeń o wysokiej wydajności. Taka skalowalność minimalizuje tarcia programistów w porównaniu z poleganiem na dedykowanym sprzęcie AI.
Jak zaznaczono w dokumencie, AMD i Intel określają ACE jako „Standardową architekturę akceleracji macierzowej dla x86”.
Pod względem technicznym, ACE został zaprojektowany do obsługi natywnego mnożenia macierzy dla różnych formatów danych AI, takich jak INT8, OCP FP8, OCP MXFP8, OCP MXINT8 i BF16. Ponadto, ACE wprowadza akcelerację macierzy poprzez operacje iloczynu zewnętrznego, zoptymalizowane pod kątem współpracy z AVX10. To podejście zapewnia zauważalny, 16-krotny wzrost gęstości obliczeniowej w porównaniu ze standardową operacją mnożenia i akumulacji AVX10, przy jednoczesnym wykorzystaniu tej samej liczby wektorów wejściowych.
Integracja oprogramowania ACE, stanowiąca rozszerzenie zestawu instrukcji AVX10, jest już w toku i obejmuje kilka ważnych obszarów, w tym:
- Biblioteki głębokiego uczenia i HPC (np. GEMM o niższej precyzji, prymitywy LLM)
- Szeroko używane biblioteki oparte na Pythonie, takie jak NumPy i SciPy
- Ramy uczenia maszynowego, w tym PyTorch i TensorFlow
ACE stanowi kluczowy krok naprzód dla przyszłości architektury x86. Co ciekawe, nawet prezes firmy NVIDIA podkreślił znaczenie sojuszu między Intelem i AMD dla utrzymania znaczenia architektury x86. Dzięki temu partnerstwu ekosystem x86 wydaje się zmierzać w stabilnym kierunku.
Źródło wiadomości: @G_melo_ding
Dodaj komentarz