SoftBank prognostiziert, dass AMD-GPUs die KI-Fähigkeiten durch eine „Teile-und-Herrsche“-Rechenstrategie verbessern werden.

SoftBank hat ein ambitioniertes Projekt gestartet, das die Leistung der AMD Instinct AI-Chips speziell für KI-Anwendungen verbessern soll. Diese Initiative nutzt eine innovative „GPU-Partitionierungstechnik“, die in der Tech-Community großes Interesse geweckt hat.

SoftBank implementiert benutzerdefinierten Orchestrator für AMDs Instinct-GPUs

Obwohl AMDs KI-Infrastruktur in letzter Zeit nicht die volle Aufmerksamkeit von Hyperscalern auf sich gezogen hat – insbesondere aufgrund der Dominanz von NVIDIA und der kürzlich vorgestellten Blackwell-Serie –, sind Unternehmen wie SoftBank weiterhin daran interessiert, AMDs Technologie zu nutzen. Wie in einem aktuellen Blogbeitrag angekündigt, hat SoftBanks Technologieabteilung einen Orchestrator eingeführt, der sich nahtlos in AMDs Instinct-KI-Chips integriert. Dieses System verteilt Rechenressourcen dynamisch entsprechend den Anforderungen der Arbeitslast und der verfügbaren Ressourcen.

In Zusammenarbeit mit AMD hat SoftBank eine verbesserte Orchestrator-Funktion entwickelt, die die GPU-Partitionierungsfunktionen von AMD Instinct™ GPUs nutzt. Dadurch kann eine einzelne GPU als mehrere logische Geräte verwendet werden. Diese Funktion ermöglicht die flexible und optimale Zuweisung von GPU-Ressourcen basierend auf den Anforderungen der KI-Anwendung, wie z. B.Modellgröße und Parallelität.

– SoftBank

Technisch gesehen legt SoftBanks Orchestrator Wert auf eine effiziente Verteilung der Arbeitslast innerhalb der Instinct-GPUs von AMD. Durch die Nutzung mehrerer GPU-Instanzen, die auf einzelnen Accelerator Complex Dies (XCDs) konfiguriert sind, kann er in verschiedenen Modi betrieben werden, darunter ein Einzelinstanzmodell (SPX) und Konfigurationen mit bis zu acht Instanzen (CPX).Diese Vielseitigkeit ermöglicht eine hohe Granularität für unterschiedliche Arbeitslasten. Darüber hinaus nutzt der Orchestrator die umfangreichen Speicherkapazitäten von AMD optimal aus und segmentiert den High-Bandwidth Memory (HBM) in separate Bereiche für jede GPU-Instanz.

Ein Diagramm mit dem Titel „SoftBank Orchestrator: Optimierung der AMD-GPU-Ressourcen“ vergleicht „Vorher: Monolithische Zuweisung“ und „Nachher:“. — Bildnachweis: SoftBank

Mit diesem Orchestrator strebt SoftBank eine präzise Steuerung der Rechenressourcen an und gewährleistet eine strikte Isolation auf Hardwareebene, um unvorhersehbare Latenzprobleme zu minimieren. Obwohl konkrete Leistungskennzahlen noch nicht veröffentlicht wurden, gibt SoftBank an, dass ihr Ansatz die „optimale Ressourcenzuweisung“ verbessert und insbesondere SLM- und MLM-Workloads zugutekommt. Zukünftig plant das Unternehmen, solche Orchestratoren auch für andere KI-Beschleuniger anzupassen, konzentriert sich aber aktuell auf AMD-Technologie.

Quellen & Bilder