Das OpenAI Codex-Modell nutzt die Cerebras-Infrastruktur und stellt damit eine leistungsstarke Alternative zu NVIDIA für KI-Inferenz dar.

OpenAI hat mit der Integration der fortschrittlichen KI-Chips von Cerebras einen bedeutenden Technologiesprung vollzogen. Diese Zusammenarbeit markiert einen Wendepunkt und unterstreicht den umfassenden Wandel in der Computerlandschaft, da OpenAI bekannt gibt, dass sein neuestes Modell, der Codex, nun neben der bisherigen Unterstützung durch NVIDIA auch von Cerebras unterstützt wird.

OpenAI erzielt mit der Hochgeschwindigkeitstechnologie von Cerebras eine bemerkenswerte Leistung von 1.000 Transaktionen pro Sekunde.

Während OpenAI seine finanzielle Beziehung zu NVIDIA neu gestaltete, ist bemerkenswert, dass sich die frühere Partnerschaft mit Cerebras als bahnbrechend im Bereich der Computertechnologie erwiesen hat. In der kürzlich veröffentlichten Version GPT-5.3-Codex-Spark hob OpenAI die Vorteile der Cerebras-Hardware hervor, insbesondere deren außergewöhnliche geringe Latenz bei Inferenzaufgaben. Diese Zusammenarbeit stellt eine ernsthafte Herausforderung für NVIDIAs Dominanz dar, insbesondere im Bereich der Modellinferenz.

Die Codex-Spark-Variante unterscheidet sich von herkömmlichen Codex-Modellen durch ihre Fähigkeit, die Betriebseffizienz zu steigern. OpenAI betont, dass dieses Modell speziell für sofortige Reaktionsfähigkeit entwickelt wurde, was zu deutlichen Verbesserungen der Latenz führt. Durch die Optimierung der Verarbeitungspipelines und die effektive Nutzung der hochmodernen Hardware von Cerebras erreicht das Unternehmen eine Reduzierung der Time-to-First-Token um beeindruckende 50 % und unterstreicht damit seine Leistungsfähigkeit. Codex-Spark basiert auf der Cerebras Wafer Scale Engine 3, die mit beeindruckenden Spezifikationen aufwartet, wie nachfolgend aufgeführt:

Spezifikation WSE-3
Prozessknoten TSMC 5nm
Transistoren ~4 Billionen
Rechenkerne 900.000 KI-optimierte Kerne
On-Chip-SRAM 44 GB
Speicherbandbreite (On-Chip) 21 PB/s
Wafergröße Vollständiger 300-mm-Wafer-Scale-Chip
Kernarchitektur KI-optimierte programmierbare Prozessorkerne

Die Entscheidung von OpenAI für Cerebras lässt sich vor allem auf die hohe Speicherbandbreite des WSE-3 zurückführen, die für speicherintensive Aufgaben wie das Codieren unerlässlich ist. Dank dieser hohen Kapazität erreicht Codex-Spark einen beeindruckenden Durchsatz von 1.000 Transaktionen pro Sekunde (TPS) und reagiert damit so schnell wie ein menschlicher Programmierer. Interessanterweise wäre das Training dieses Modells auf der NVIDIA-Infrastruktur wirtschaftlich ineffizient, da der Fokus dort auf Stapelverarbeitung und nicht auf geringer Latenz liegt. Daher erweist sich Cerebras als logische Wahl.

Vergleich von Cerebras Wafer Scale Engine 3 und NVIDIA H100
Bildnachweis: Cerebras

Trotz der vielversprechenden Fähigkeiten von Cerebras in Inferenzszenarien dominiert NVIDIA weiterhin den Markt. Jüngste Ankündigungen deuteten auf eine bis zu zehnfache Reduzierung der Tokenkosten mit der Blackwell-Architektur hin und festigten damit ihre starke Position. Sachin Katti von OpenAI hob zwar die „komplementären Fähigkeiten“ von Cerebras hervor, doch scheint das KI-Labor im Wettbewerb um Rechenleistung weiterhin primär auf NVIDIA zu setzen. Das Aufkommen von Codex-Spark verdeutlicht jedoch einen kritischen Engpass bei der Latenz, in dem NVIDIAs aktuelle Technologie möglicherweise nicht optimal aufgestellt ist, um mitzuhalten.

Mit Blick auf die Zukunft erscheint der Markt für Inferenztechnologie zunehmend wettbewerbsintensiv. NVIDIA sieht sich starken Konkurrenten wie Cerebras gegenüber, aber auch Innovationen anderer ASIC-Hersteller und Wettbewerber wie AMD. Es bleibt abzuwarten, wie sich diese Dynamiken auf NVIDIAs Strategie und Marktpositionierung in den kommenden Jahren auswirken werden.

Quellen & Bilder

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert