Im sich rasant entwickelnden Bereich der künstlichen Intelligenz steht NVIDIA vor beispiellosen Herausforderungen, nicht primär durch AMD oder Intel, sondern durch Google – einen aufstrebenden Konkurrenten, der den Abstand deutlich verringert. NVIDIAs CEO, Jensen Huang, ist sich dieser Wettbewerbssituation sehr wohl bewusst.
Auf den ersten Blick mag es überraschen, dass Google im Wettlauf um KI-Hardware eine führende Rolle einnimmt. Doch der Technologiekonzern legte bereits 2016 mit der Einführung seines ersten eigenen KI-Chips, der TPU (Tensor Processing Unit), den Grundstein – weit vor der Konkurrenz. Kürzlich präsentierte Google seine neueste Weiterentwicklung, die Ironwood TPUs der 7. Generation. Diese Veröffentlichung sorgte für großes Aufsehen und schuf die Voraussetzungen für einen spannenden Wettbewerb zwischen NVIDIA und Google. In diesem Artikel beleuchten wir die entscheidenden Aspekte, die verdeutlichen, warum dieses Duell so wichtig ist, und konzentrieren uns dabei insbesondere auf die Fortschritte der Ironwood TPUs von Google.
Googles Ironwood TPUs: 192 GB HBM und deutliche Leistungsverbesserungen
Googles Ironwood TPUs stehen kurz vor dem Einsatz in verschiedenen Anwendungsbereichen und werden voraussichtlich bald verfügbar sein. Google vermarktet den Chip als „inferenzorientiert“ und behauptet, Ironwood läute eine neue Ära der Inferenzleistung ein und verbessere die Effizienz im allgemeinen Computing. Die TPU v7 (Ironwood) ist strategisch darauf ausgelegt, den Übergang vom Modelltraining zur Inferenz optimal zu gestalten, der die aktuelle Technologielandschaft prägen dürfte. Hier einige bemerkenswerte Spezifikationen:
- 10-fache Spitzenleistungssteigerung gegenüber der TPU v5p.
- Vierfach bessere Leistung pro Chip sowohl beim Training als auch bei der Inferenz im Vergleich zu TPU v6e (Trillium).
- Der leistungsstärkste und energieeffizienteste kundenspezifische Siliziumchip, den Google bisher entwickelt hat.
Die Spezifikationen des Ironwood-Chips im Detail: Er verfügt über bemerkenswerte 192 GB HBM-Speicher mit 7, 4 TB/s und erreicht eine Spitzenleistung von beeindruckenden 4.614 TFLOPS pro Chip – fast eine 16-fache Steigerung gegenüber TPU v4. Mit der Einführung des Ironwood TPU Superpods, bestehend aus 9.216 Chips, kann Google zudem beeindruckende 42, 5 ExaFLOPS für aggregierte FP8-Rechenlasten bereitstellen. Diese Integration unterstreicht Googles innovative Verbindungslösungen, die NVIDIAs NVLink in puncto Skalierbarkeit übertreffen.

Mit Fokus auf Vernetzung setzt Google auf InterChip Interconnect (ICI), ein robustes, skalierbares Netzwerk. Diese Technologie ermöglicht die Verbindung von 43 Superpod-Blöcken (jeweils mit 64 Chips) über ein 1, 8 Petabyte großes Netzwerk. Durch den Einsatz von Netzwerkkarten (NICs) für die interne Kommunikation und eines 3D-Torus-Layouts für die TPUs optimiert Google die Vernetzung und verbessert so effektiv Skalierbarkeit und Chipdichte – ein Bereich, in dem Google die Angebote von NVIDIA übertrifft.
| Spezifikation | Wert |
|---|---|
| Maximale Rechenleistung pro Chip (FP8) | ~ 4.614 TFLOPS |
| HBM-Kapazität pro Chip | 192 GB HBM3e |
| Speicherbandbreite pro Chip | ~ 7, 2 TB/s |
| Maximale Kapselgröße (Anzahl Chips) | 9.216 Chips |
| Maximale Rechenleistung pro Pod | ~ 42, 5 ExaFLOPS |
| Systemspeicher pro Pod (HBM) | ~ 1, 77 PB |
| Inter-Chip Interconnect (ICI) Bandbreite | ~ 1, 2 Tb/s pro Verbindung |
| Leistungsverbesserung | ~ 16x schneller als TPU v4 |
Googles ASIC-Ambitionen: Eine echte Bedrohung für NVIDIAs KI-Vorherrschaft?
Bei der Betrachtung der Bedeutung von Ironwood TPUs im heutigen Zeitalter der Inferenz ist es entscheidend, die wachsende Wichtigkeit von Inferenzfähigkeiten zu erkennen. Traditionell dominierte das Modelltraining die KI-Landschaft, wobei die Rechenlösungen von NVIDIA aufgrund ihrer überlegenen Leistung in Trainingsszenarien weit verbreitet waren. Mit der zunehmenden Verbreitung gängiger Modelle hat der Bedarf an Inferenzaufgaben jedoch dramatisch zugenommen und übersteigt oft den Trainingsbedarf.
Die Inferenzleistung wird nicht allein durch die reine TFLOPS-Zahl bestimmt; Faktoren wie Latenz, Durchsatz, Effizienz und Kosten pro Abfrage gewinnen zunehmend an Bedeutung. Betrachtet man Googles Ironwood-Angebote, wird deutlich, warum sie NVIDIA in diesem Bereich übertreffen könnten. Ironwood verfügt beispielsweise über einen beträchtlichen On-Package-Speicher, ähnlich wie NVIDIAs Blackwell B200 KI-GPUs. Die Clustering-Fähigkeit des SuperPod mit 9.216 Chips erweitert die Gesamtspeicherkapazität jedoch deutlich.

Eine höhere Speicherkapazität ist in Inferenzszenarien von entscheidender Bedeutung, da sie die Kommunikationsverzögerungen zwischen den Chips minimiert und die Latenzleistung in großen Modellen verbessert, was die Attraktivität von Ironwood unterstreicht. Google hat Ironwood sorgfältig für Umgebungen mit geringer Latenz entwickelt und gleichzeitig die Energieeffizienz optimiert – ein entscheidender Aspekt für den erwarteten Erfolg.
Hyperscale-Inferenz erfordert Tausende von Chips, die Anfragen kontinuierlich und effizient bearbeiten können. Daher haben Bereitstellungs- und Betriebskosten für Cloud-Service-Provider (CSPs) Vorrang vor der reinen Leistung. Google hat mit Ironwood die Energieeffizienz verdoppelt und seine TPUs damit für den breiten Einsatz in Inferenzanwendungen wirtschaftlicher gemacht.

Das Wettbewerbsparadigma im Bereich KI wandelt sich von der reinen Erzielung höchster FLOPS hin zu einem differenzierteren Wettstreit, der Abfrageverarbeitungskapazitäten, Latenzreduzierung, Betriebskosten und Energieeffizienz umfasst. Diese Entwicklung eröffnet Google neue Möglichkeiten, frühzeitig Fuß zu fassen und potenzielle Schwächen in NVIDIAs langjähriger Dominanz im KI-Bereich auszunutzen. Ironwood wird exklusiv über Google Cloud verfügbar sein, was die Abhängigkeit vom Google-Ökosystem verstärken und NVIDIAs etablierte Position gefährden könnte. Die iterativen Verbesserungen der Google TPUs unterstreichen deren Wettbewerbscharakter und signalisieren einen Wandel, der sich auch in NVIDIAs strategischer Planung widerspiegeln dürfte.
Dennoch bleibt NVIDIA angesichts dieser neuen Herausforderung nicht untätig; als Reaktion darauf stellt das Unternehmen den Rubin CPX vor, um sich mit optimierten Rack-Lösungen eine bedeutende Nische zu sichern. Es wird jedoch immer deutlicher, dass Google sich als ernstzunehmender Konkurrent für NVIDIA etabliert, während Intel und AMD derzeit in puncto Einfluss und Innovation hinterherhinken.
In einem bemerkenswerten Kommentar reflektierte Jensen Huang in einem früheren Interview über die TPU-Fähigkeiten von Google und würdigte die Komplexität und Wettbewerbsfähigkeit ihrer Angebote:
In diesem Zusammenhang … eine der wichtigsten Debatten … dreht sich um die Frage GPUs versus ASICs, Googles TPUs, Amazons Trainium. Google … Sie haben mit TPU1 angefangen, bevor der ganze Rest losging.… Die Herausforderung für ASIC-Entwickler.
TPU ist auf TPU 7. Ja. Genau. Und auch für sie ist es eine Herausforderung. Richtig. Und deshalb ist ihre Arbeit unglaublich schwierig.
Schreibe einen Kommentar