NVIDIA senkt die Tokenkosten dank der extremen Codesignatur-Strategie von Team Green um das Zehnfache mit der neuen Blackwell-Plattform.

NVIDIAs neueste Blackwell-Plattform hat einen neuen Maßstab für die Token-Optimierung bei KI-Inferenz gesetzt und damit einen bedeutenden Erfolg auf dem Gebiet der Tokenomics erzielt.

NVIDIAs GB200 NVL72 übertrifft Hopper mit 10-fach verbesserter Tokenomics und zeichnet sich durch Parallelverarbeitung auf Expertenniveau aus.

Im schnelllebigen Umfeld der KI-Technologie hat NVIDIA der Effizienzsteigerung seiner Hardware höchste Priorität eingeräumt. Mit der Einführung von Blackwell-trainierten, hochmodernen KI-Modellen wurden bemerkenswerte Fortschritte bei der Token-Ausgabe und den damit verbundenen Kosten erzielt. Kürzlich gab NVIDIA Einblicke in die Zusammenarbeit mit verschiedenen Unternehmen zur Leistungssteigerung von Blackwell und konnte eine zehnfache Verbesserung gegenüber der vorherigen Hopper-Generation verzeichnen.

Führende Anbieter von Inferenzdiensten wie Baseten, DeepInfra, Fireworks AI und Together AI nutzen die NVIDIA Blackwell-Plattform und erzielen damit eine bis zu zehnfache Reduzierung der Kosten pro Token im Vergleich zur NVIDIA Hopper-Plattform. Diese Unternehmen hosten hochentwickelte Open-Source-Modelle, die ein Spitzenniveau an Intelligenz erreicht haben.

Durch die Kombination von Open-Source-Technologie der Spitzentechnologie mit NVIDIA Blackwells robustem Hardware-Software-Codesign und maßgeschneiderten Inferenz-Stacks ermöglichen diese Anbieter Unternehmen in verschiedenen Branchen erhebliche Kosteneinsparungen.

– NVIDIA

NVIDIA hat Unternehmen wie Baseten, Sully.ai, DeepInfra und Latitude für ihr Engagement bei der Optimierung der Tokenomics mit Blackwell ausgezeichnet. Diese Unternehmen profitieren von geringerer Latenz, niedrigeren Inferenzkosten und zuverlässigen Ergebnissen, wodurch sich Blackwell als bevorzugter Technologie-Stack für moderne KI-Unternehmen etabliert hat. Sentient Labs berichtete insbesondere von einer um 25–50 % höheren Kosteneffizienz im Vergleich zur Hopper-Plattform, vor allem bei Multiagenten- und spezialisierten KI-Agenten-Implementierungen.

Die Abbildung zeigt einen Vergleich der Systemkosten und der mit jedem Token verbundenen Kosten anhand von Diagrammen. — Bildnachweis: NVIDIA

Der Erfolg der Blackwell-Architektur ist NVIDIAs innovativer „Extreme Co-Design“-Strategie zu verdanken, die besonders gut mit modernen Mixture-of-Experts-Architekturen (MoE) kompatibel ist. Die GB200 NVL72 nutzt eine Konfiguration mit 72 Chips und 30 TB schnellem, gemeinsam genutztem Speicher, wodurch die Expertenparallelität auf ein beispielloses Niveau gehoben wird. Diese Architektur ermöglicht die kontinuierliche Aufteilung und Verteilung von Batches auf die GPUs, was zu einem nichtlinearen Anstieg des Kommunikationsvolumens führt – ein entscheidender Faktor für optimale Tokenomics.

Mit Blick auf die Zukunft strebt NVIDIA mit seinem Vera-Rubin-Projekt eine weitere Steigerung der Infrastruktureffizienz an. Der Fokus liegt dabei auf architektonischen Innovationen und spezialisierten Tools wie CPX für die Vorbefüllungsfunktion. Angesichts der rasanten Entwicklung der KI-Technologie ist es unerlässlich zu verstehen, dass die Optimierung bestehender Hardware ebenso wichtig ist wie die Entwicklung neuer Systeme.

Quellen & Bilder