AMD ROCm 7-Start: Verbesserte MI350-Unterstützung, neue KI-Algorithmen, erweiterte Modelle und Funktionen mit 3,5-facher Verbesserung der Inferenzleistung

AMD hat ROCm 7 offiziell auf den Markt gebracht, seine neueste Version offener Software-Stack-Technologien, die sowohl die Fähigkeiten künstlicher Intelligenz (KI) als auch die Produktivität der Entwickler verbessern soll.

Einführung von ROCm 7: Verbesserte Open-Software-Innovationen mit Schwerpunkt auf KI-Inferenz

Mit der Veröffentlichung von ROCm 7 präsentiert AMD ein bedeutendes Upgrade gegenüber der Vorgängerversion ROCm 6, die im Laufe der Jahre zahlreiche Verbesserungen erfahren hat, insbesondere im Hinblick auf den Aufstieg des KI-Computings. Hier sind einige der wichtigsten Funktionen, die ROCm 7 zu einem bahnbrechenden Produkt machen:

Hochmoderne Algorithmen und Modelle
Robuste Funktionen für KI-Skalierbarkeit
Support für die MI350-Serie
Umfassendes Clustermanagement
Unternehmenstaugliche Funktionen

AMD legt großen Wert auf die Verbesserung der Inferenzfunktionen im ROCm-Software-Stack. Das neue ROCm 7 bietet fortschrittliche Frameworks wie vLLM v1, llm-d und SGLang. Darüber hinaus führt es wertvolle Optimierungen wie Distributed Inference, Prefill und Disaggregation ein, die Leistung und Flexibilität verbessern.

Zu den neu integrierten Kerneln und Algorithmen gehören GEMM Autotuning, Mixture of Experts (MoE), Aufmerksamkeitsmechanismen und die Möglichkeit, Kernel mit Python zu erstellen. Diese Verbesserungen versprechen eine Optimierung des Entwicklungsprozesses für KI-Anwendungen.

Darüber hinaus bietet ROCm 7 vollständige Unterstützung für erweiterte Datentypen, darunter FP8, FP6, FP4 sowie Mixed Precision, und erweitert so seine Fähigkeiten für die GPUs der MI350-Serie.

AMD betont, dass die Inferenz ein Hauptaugenmerk von ROCm 7 war und berichtet von Leistungsverbesserungen von bis zu 3, 5-fachen für KI-Workloads. Konkret umfassen die Verbesserungen eine bis zu 3, 2-fache Steigerung für Llama 3.1 70B, eine 3, 4-fache Steigerung für Qwen2-72B und eine beeindruckende 3, 8-fache Leistungssteigerung für Deep Seek R1 im Vergleich zu ROCm 6.

Quelle & Bilder