AIチップ対決：NVIDIAはAMDやIntelだけでなく、GoogleのTPUからも大きな競争に直面

急速に進化する人工知能（AI）分野において、NVIDIAはかつてないほどの脅威に直面しています。その主な相手はAMDやIntelではなく、Googleです。Googleは新興勢力として、その差を大きく縮めつつあります。NVIDIAのCEO、ジェンスン・フアンは、この競争環境を痛感しています。

GoogleがAIハードウェア競争の最前線に立っているというのは、一見すると意外に思えるかもしれません。しかし、このテクノロジー界の巨人は、競合他社に大きく先んじて2016年に初のカスタムAIチップであるTPU（Tensor Processing Unit）をリリースし、その基盤を築いていました。最近、Googleは最新の進化形である「第7世代」Ironwood TPUを発表しました。このリリースは大きな反響を呼び、NVIDIAとGoogleの激しい競争の火付け役となりました。この記事では、この対決が極めて重要である理由を示す重要な側面、特にGoogleのIronwood TPUがもたらす進歩に焦点を当てて考察します。

GoogleのIronwood TPU：192GBのHBMと大幅なパフォーマンス強化

GoogleのIronwood TPUは、様々なワークロードへの導入に向けて準備を進めており、まもなく提供開始される予定です。「推論重視」チップとして販売されているIronwoodは、Googleによると、推論性能の新たな時代を告げるもので、汎用コンピューティングの効率性を向上させるとのことです。TPU v7（Ironwood）は、モデルトレーニングから推論への移行において優れた性能を発揮するように戦略的に設計されており、現在の技術動向を席巻すると見込まれています。注目すべき仕様をいくつかご紹介します。

TPU v5p に比べてピークパフォーマンスが 10 倍向上します。
TPU v6e (Trillium) と比較して、トレーニングと推論の両方においてチップあたりのパフォーマンスが 4 倍向上します。
Google がこれまでに開発した最も強力でエネルギー効率の高いカスタムシリコンです。

仕様をさらに詳しく見てみると、Ironwoodチップは192GBの7.4TB/s HBMメモリを搭載し、チップあたり4, 614TFLOPSという驚異的なピーク性能を実現しています。これはTPU v4の約16倍に相当します。さらに、9, 216個のチップで構成されるIronwood TPU Superpodの導入により、GoogleはFP8コンピューティングワークロード全体で42.5エクサFLOPSという驚異的な性能を実現できます。この統合は、スケーラビリティにおいてNVIDIAのNVLinkを凌駕するGoogleの革新的な相互接続ソリューションを際立たせています。

多数の色とりどりのケーブルで複雑に接続されたサーバーラックの列でいっぱいの広い部屋。 — Googleのアイアンウッドスーパーポッド

Googleは相互接続性を重視し、スケーラビリティを重視して設計された堅牢なネットワークであるInterChip Interconnect（ICI）を採用しています。この技術により、1.8ペタバイトのネットワーク上で43ブロック（各ブロックに64個のチップを搭載）のSuperpodを接続できます。内部通信にはNICを使用し、TPUには3D Torusレイアウトを採用することで、Googleは相互接続性を最適化し、スケーラビリティとチップ密度を効果的に向上させています。これは、GoogleがNVIDIAの製品を凌駕する点です。

仕様	価値
チップあたりのピークコンピューティング能力 (FP8)	約4, 614TFLOPS
チップあたりのHBM容量	192 GB HBM3e
チップあたりのメモリ帯域幅	約7.2 TB/秒
最大ポッドサイズ（チップ数）	9, 216チップ
ポッドあたりのピークコンピューティング	約42.5エクサフロップス
ポッドあたりのシステムメモリ（HBM）	約1.77PB
チップ間相互接続（ICI）帯域幅	リンクあたり約 1.2 Tb/s
パフォーマンスの向上	TPU v4 の約 16 倍

Google の ASIC への野望: NVIDIA の AI の優位性に対する真の脅威か?

推論が重視される現代において、Ironwood TPUの重要性を精査する上で、推論機能の重要性の高まりを認識することが不可欠です。従来、AI分野ではモデルトレーニングが主流であり、NVIDIAのコンピューティングソリューションはトレーニングシナリオにおける優れたパフォーマンスにより広く利用されてきました。しかし、主流のモデルが普及するにつれて、推論タスクは劇的に増加し、トレーニングのニーズを上回るケースも少なくありません。

推論性能は、単なるTFLOPS値だけで決まるものではありません。レイテンシ、スループット、効率、クエリあたりのコストといった要素がますます重要になっています。GoogleのIronwood製品群を見てみると、なぜこの分野でGoogleがNVIDIAを凌駕するのかが明らかになります。例えば、IronwoodはNVIDIAのBlackwell B200 AI GPUに匹敵する大容量のオンパッケージメモリを搭載しています。しかし、SuperPodの9, 216個のチップを搭載したクラスタリング機能は、全体のメモリ容量を大幅に拡張します。

金属製の冷却ブロック、ヒートシンク、および液体冷却用の接続パイプを示すサーバーマザーボードのクローズアップ。 — 液体冷却に接続された 3 つの Ironwood TPU を紹介する Ironwood ボード。

推論シナリオにおいては、メモリ容量の増加が極めて重要です。チップ間通信の遅延を最小限に抑え、大規模モデルにおけるレイテンシ性能を向上させることができるため、Ironwoodの魅力はさらに高まります。Googleは、低レイテンシ環境を実現すると同時に電力効率も向上させるため、Ironwoodを綿密に設計しました。これは、Ironwoodの期待される成功の重要な要素です。

ハイパースケール推論には、クエリリクエストを継続的に効率的に処理できる数千個のチップが必要であり、クラウドサービスプロバイダ（CSP）にとって、導入コストと運用コストはパフォーマンスよりも優先されます。そのため、GoogleはIronwoodによって電力効率を2倍向上させ、TPUを幅広い推論アプリケーションにおいてより経済的に実現可能にしました。

大規模なコンテキスト向けの NVIDIA Rubin CPX GPU は、128GB GDDR7 メモリなどの機能を備え、2026 年末に発売予定です。 — 画像: NVIDIA Corporation

AIにおける競争のパラダイムは、単に最高FLOPSを達成することから、クエリ処理能力、レイテンシの削減、運用コスト、エネルギー効率を網羅する、より繊細な競争へと移行しつつあります。この進化は、Googleにとって、AI分野におけるNVIDIAの長年の優位性における潜在的な弱点を突くことで、早期に足場を築くための新たな道筋を示しています。特に、IronwoodはGoogle Cloud経由でのみ提供されるため、エコシステムへのロックインが促進され、NVIDIAの確立された地位が脅かされる可能性があります。GoogleのTPUの継続的な進化は、その競争的な性質を浮き彫りにしており、NVIDIAの戦略計画にも反映されるべき変化を示唆しています。

しかし、NVIDIAはこの新たな挑戦に受動的に対処しているわけではありません。Rubin CPXを発表し、最適化されたラックスケールソリューションで重要なニッチ市場を開拓することを目指しています。しかしながら、GoogleがNVIDIAの強力なライバルとして存在感を示しつつあることはますます明らかであり、IntelとAMDは現時点では影響力と革新性において後れを取っています。

注目すべきコメントとして、ジェンセン・フアン氏は過去のインタビューで Google の TPU 機能について振り返り、同社製品の複雑さと競争力を認めています。

その点において…最大の重要な議論の一つは…GPU対ASIC、GoogleのTPU、AmazonのTrainiumといった問題です。Googleは…全てが始まる前にTPU1を開発していました。…ASICを開発する人々にとっての課題です。

TPUはTPU 7です。はい。その通りです。そしてそれは彼らにとっても挑戦です。その通りです。ですから、彼らの仕事は信じられないほど困難です。

出典と画像