OpenAI hat mit der Integration der fortschrittlichen KI-Chips von Cerebras einen bedeutenden Technologiesprung vollzogen. Diese Zusammenarbeit markiert einen Wendepunkt und unterstreicht den umfassenden Wandel in der Computerlandschaft, da OpenAI bekannt gibt, dass sein neuestes Modell, der Codex, nun neben der bisherigen Unterstützung durch NVIDIA auch von Cerebras unterstützt wird.
OpenAI erzielt mit der Hochgeschwindigkeitstechnologie von Cerebras eine bemerkenswerte Leistung von 1.000 Transaktionen pro Sekunde.
Während OpenAI seine finanzielle Beziehung zu NVIDIA neu gestaltete, ist bemerkenswert, dass sich die frühere Partnerschaft mit Cerebras als bahnbrechend im Bereich der Computertechnologie erwiesen hat. In der kürzlich veröffentlichten Version GPT-5.3-Codex-Spark hob OpenAI die Vorteile der Cerebras-Hardware hervor, insbesondere deren außergewöhnliche geringe Latenz bei Inferenzaufgaben. Diese Zusammenarbeit stellt eine ernsthafte Herausforderung für NVIDIAs Dominanz dar, insbesondere im Bereich der Modellinferenz.
Die Codex-Spark-Variante unterscheidet sich von herkömmlichen Codex-Modellen durch ihre Fähigkeit, die Betriebseffizienz zu steigern. OpenAI betont, dass dieses Modell speziell für sofortige Reaktionsfähigkeit entwickelt wurde, was zu deutlichen Verbesserungen der Latenz führt. Durch die Optimierung der Verarbeitungspipelines und die effektive Nutzung der hochmodernen Hardware von Cerebras erreicht das Unternehmen eine Reduzierung der Time-to-First-Token um beeindruckende 50 % und unterstreicht damit seine Leistungsfähigkeit. Codex-Spark basiert auf der Cerebras Wafer Scale Engine 3, die mit beeindruckenden Spezifikationen aufwartet, wie nachfolgend aufgeführt:
| Spezifikation | WSE-3 |
|---|---|
| Prozessknoten | TSMC 5nm |
| Transistoren | ~4 Billionen |
| Rechenkerne | 900.000 KI-optimierte Kerne |
| On-Chip-SRAM | 44 GB |
| Speicherbandbreite (On-Chip) | 21 PB/s |
| Wafergröße | Vollständiger 300-mm-Wafer-Scale-Chip |
| Kernarchitektur | KI-optimierte programmierbare Prozessorkerne |
Die Entscheidung von OpenAI für Cerebras lässt sich vor allem auf die hohe Speicherbandbreite des WSE-3 zurückführen, die für speicherintensive Aufgaben wie das Codieren unerlässlich ist. Dank dieser hohen Kapazität erreicht Codex-Spark einen beeindruckenden Durchsatz von 1.000 Transaktionen pro Sekunde (TPS) und reagiert damit so schnell wie ein menschlicher Programmierer. Interessanterweise wäre das Training dieses Modells auf der NVIDIA-Infrastruktur wirtschaftlich ineffizient, da der Fokus dort auf Stapelverarbeitung und nicht auf geringer Latenz liegt. Daher erweist sich Cerebras als logische Wahl.

Trotz der vielversprechenden Fähigkeiten von Cerebras in Inferenzszenarien dominiert NVIDIA weiterhin den Markt. Jüngste Ankündigungen deuteten auf eine bis zu zehnfache Reduzierung der Tokenkosten mit der Blackwell-Architektur hin und festigten damit ihre starke Position. Sachin Katti von OpenAI hob zwar die „komplementären Fähigkeiten“ von Cerebras hervor, doch scheint das KI-Labor im Wettbewerb um Rechenleistung weiterhin primär auf NVIDIA zu setzen. Das Aufkommen von Codex-Spark verdeutlicht jedoch einen kritischen Engpass bei der Latenz, in dem NVIDIAs aktuelle Technologie möglicherweise nicht optimal aufgestellt ist, um mitzuhalten.
Mit Blick auf die Zukunft erscheint der Markt für Inferenztechnologie zunehmend wettbewerbsintensiv. NVIDIA sieht sich starken Konkurrenten wie Cerebras gegenüber, aber auch Innovationen anderer ASIC-Hersteller und Wettbewerber wie AMD. Es bleibt abzuwarten, wie sich diese Dynamiken auf NVIDIAs Strategie und Marktpositionierung in den kommenden Jahren auswirken werden.
Schreibe einen Kommentar