Wprowadzenie na rynek AMD ROCm 7: ulepszona obsługa MI350, nowe algorytmy AI, zaawansowane modele i funkcje z 3,5-krotną poprawą wydajności wnioskowania

Wprowadzenie na rynek AMD ROCm 7: ulepszona obsługa MI350, nowe algorytmy AI, zaawansowane modele i funkcje z 3,5-krotną poprawą wydajności wnioskowania

Firma AMD oficjalnie wprowadziła na rynek ROCm 7 – najnowszą wersję technologii otwartego oprogramowania, zaprojektowaną w celu zwiększenia możliwości sztucznej inteligencji (AI) oraz produktywności programistów.

Przedstawiamy ROCm 7: Ulepszone innowacje w otwartym oprogramowaniu ze szczególnym uwzględnieniem wnioskowania AI

Dzięki odsłonięciu ROCm 7 AMD oznacza znaczącą aktualizację w stosunku do poprzedniej wersji, ROCm 6, która otrzymała liczne ulepszenia na przestrzeni lat, szczególnie w odniesieniu do wzrostu obliczeń AI. Oto niektóre z kluczowych funkcji, które sprawiają, że ROCm 7 zmienia zasady gry:

  • Najnowocześniejsze algorytmy i modele
  • Solidne funkcje skalowalności AI
  • Wsparcie dla serii MI350
  • Kompleksowe zarządzanie klastrami
  • Możliwości gotowe na potrzeby przedsiębiorstwa
Obraz AMD ROCm 7

AMD kładzie duży nacisk na wzmocnienie możliwości wnioskowania w stosie oprogramowania ROCm. Nowy ROCm 7 zawiera zaawansowane struktury, w tym vLLM v1, llm-d i SGLang. Ponadto wprowadza cenne optymalizacje, takie jak Distributed Inference, Prefill i Disaggregation, które zwiększają wydajność i elastyczność.

Wśród nowo zintegrowanych jąder i algorytmów znajdują się GEMM Autotuning, Mixture of Experts (MoE), mechanizmy Attention i możliwość tworzenia jąder przy użyciu Pythona. Te ulepszenia obiecują usprawnić proces rozwoju aplikacji AI.

Obraz funkcji AMD ROCm 7

Ponadto ROCm 7 zapewnia pełne wsparcie dla zaawansowanych typów danych, w tym FP8, FP6, FP4, a także Mixed Precision, co jeszcze bardziej rozszerza jego możliwości dla procesorów graficznych serii MI350.

Pod względem wydajności AMD podkreśla, że ​​wnioskowanie było głównym celem ROCm 7, zgłaszając poprawę wydajności do 3, 5 razy dla obciążeń AI. Konkretnie, ulepszenia obejmują do 3, 2-krotnego wzrostu dla Llama 3.1 70B, 3, 4-krotny wzrost dla Qwen2-72B i imponujący 3, 8-krotny wzrost wydajności dla Deep Seek R1 w porównaniu do ROCm 6.

Źródło i obrazy

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *