Google、第8世代TPU、NVIDIA Rubin、Axion CPUを統合した高度なAIハイパーコンピュータでエージェント型AI時代に突入

Googleは、Cloud Next 26イベントにおいて、画期的なAIハイパーコンピューターを正式に発表しました。TPUv8シリーズチップ、NVIDIA Rubin GPU、Axion CPUを統合することで、人工知能（AI）インフラストラクチャのあり方を根本から変革するものです。今回の発表は、エージェント型AIの未来を切り拓く上で重要な節目となります。

Google Cloud Next 26：AIハイパーコンピューターが先進技術でエージェントAIに革命を起こす

従来のスーパーコンピュータの時代は終わりを迎えつつあり、多様なコンピューティングオプションを組み合わせることで、適応性と高性能を兼ね備えたAIアーキテクチャを実現するハイパーコンピュータが主流となる新たなパラダイムへと移行しつつあります。GoogleのAIハイパーコンピュータはこの進化を体現しており、顧客の計算ニーズを満たすための比類ない柔軟性を提供します。

「AIハイパーコンピュータ」と題された図には、次の3つのセクションがあります。「柔軟な消費」には、「オーケストレーション」、「クラスタ管理」、「消費モデル」が含まれます。「オープンソフトウェア」には、「フレームワーク」と「推論エンジン」が含まれます。「専用ハードウェア」には、「コンピューティング」、「ストレージ」、「ネットワーク」が含まれます。

AIハイパーコンピューターの潜在能力を最大限に引き出すため、Googleはパフォーマンスを最適化したアーキテクチャを開発しました。AIハイパーコンピューターの中核を成すのは、最新のTPUv8シリーズ、革新的なAxion Cloud CPU、そして高度なNVIDIA Rubin GPUです。これには、Googleの第8世代TPUの発売も含まれており、TPU 8tとTPU 8iという2つの異なるモデルが用意されています。

トレーニング強化のための最適化されたTPU 8tモデル

TPU 8tは、強力なトレーニングプロセッサとして設計されており、最先端モデルの展開期間を数ヶ月からわずか数週間へと大幅に短縮します。最高レベルの演算スループット、強化された共有メモリ機能、そして優れたチップ間帯域幅を、電力効率の高い設計で実現しています。TPU 8tの主な特長は以下のとおりです。

大規模なスケーリング機能：単一のTPU 8tスーパーポッドは最大9, 600個のチップまで拡張可能で、2ペタバイトの共有高帯域幅メモリを搭載しています。これにより、チップ間の帯域幅は従来比で2倍になります。この構成により、最大121エクサフロップスの演算能力を実現し、複雑なモデルでも1つの大規模なメモリプールを活用できます。
利用率の最大化：ストレージへのアクセス速度が10倍向上し、データ取得を最適化するTPUDirectと組み合わせることで、TPU 8tはシステム全体の利用率を向上させます。
ほぼ線形な拡張性：新しいVirgo NetworkとJAXなどの高度なソフトウェアの統合により、TPU 8tは最大100万個のチップを含む論理クラスタに対してほぼ線形な拡張性を実現します。

TPU 8i：推論における新たなベンチマーク

TPU 8iは推論タスクに特化しており、288GBのHBMメモリと384MBのオンチップSRAMを搭載し、前世代の3倍の容量を実現しています。このアーキテクチャにより、モデルをチップ上で完全に連続的に動作させることが可能です。TPU 8iの主な特長は以下のとおりです。

Axionによる効率化：このモデルでは、サーバーあたりの物理CPUホスト数を2倍に増やし、非均一メモリアーキテクチャ（NUMA）を採用したカスタムArmベースAxion CPUを活用することで、パフォーマンスを向上させています。
エキスパート混合モデル（MoE）向けに最適化： TPU 8iは、19.2 Tb/sに拡張されたインターコネクト（ICI）帯域幅と、ネットワーク直径を大幅に縮小するBoardflyアーキテクチャを備えており、低遅延の統合機能を保証します。
レイテンシの低減：新しいオンチップのコレクティブアクセラレーションエンジン（CAE）のおかげで、TPU 8iはオンチップのレイテンシを低減し、パフォーマンスを大幅に向上させます。

複数の回路基板がぼかされた背景の中に、2つのGoogle Cloud TPU v8iチップが鮮明に表示されている。

機能比較表

特徴	TPU 8t	TPU 8i
主な業務量	大規模な事前トレーニング	サンプリング、提供、および推論
ネットワークトポロジー	3Dトーラス	ボードフライ
特殊チップ機能	SparseCore（埋め込み）およびLLMデコーダーエンジン	CAE（集団加速エンジン）
HBM容量	216 GB	288 GB
オンチップSRAM（Vmem）	128 MB	384 MB
ピークFP4 PFLOPs	12.6	10.1
HBM帯域幅	6.528 GB/s	8, 601 GB/秒（TPU 8tの約1.3倍）
CPUヘッダー	アームアクシオン	アームアクシオン

AIハイパーコンピューターのハイライト

GoogleのAIハイパーコンピューターの革新的な能力を示す数々の特長を以下に紹介します。

TPU 8tはトレーニング向けに最適化されており、ICI（Inter-Chip Interconnect）を利用して単一のスーパーポッド内で最大9, 600個のTPUと2PBの共有メモリに拡張することで、前世代の3倍の処理能力と向上したエネルギー効率を実現しています。
TPU 8iは、1, 152個のTPUを直接接続するための新しいBoardflyトポロジーを採用し、従来モデルの3倍のSRAMを搭載してより大容量のオンチップストレージをサポートするとともに、パフォーマンス向上のための専用CAEを実装しています。
NVIDIAのGPUは、提供されるAIアクセラレータにおいて重要な役割を果たしており、Googleは既存のHooverおよびBlackwellベースのモデルに加え、NVIDIA Vera Rubin NVL72をいち早く導入した企業の1つである。
Google Cloud Axionは、 1月にリリースされたN4A Axionインスタンスを搭載しており、同等のx86インスタンスと比較して価格性能比が100%向上しています。
ネットワーク最適化コンピューティングは、ネットワーク負荷の高いアプリケーションの性能向上を目的として設計された新しいC4NおよびM4Nマシンシリーズによって拡張され、標準インスタンスのvCPUあたりの帯域幅の約4倍を実現します。
ストレージにおける重要なイノベーションとしては、高速トレーニングのために毎秒10TBのスループットを実現できるManaged Lustreの進歩や、パフォーマンスが毎秒6TBから毎秒15TBに急上昇し、トレーニングと推論のワークロードを強化したRapid Storageの進歩などが挙げられる。
ネットワーク機能の強化には、NVIDIA Vera Rubin NVL72システムまたはTPU 8tスーパーポッドを接続して大規模なスーパーコンピュータを構築し、高度なモデルの分散トレーニングを強化するように設計された最適化アーキテクチャであるVirgo Networkが含まれます。

Google AIハイパーコンピューターの主要顧客には、米国エネルギー省、ボストン・ダイナミクス、シタデル証券、シンキング・マシン・ラボ、アクシア・エナジーといった大手企業が含まれる。

出典と画像

Google、第8世代TPU、NVIDIA Rubin、Axion CPUを統合した高度なAIハイパーコンピュータでエージェント型AI時代に突入