NVIDIA Blackwell Ultra「GB300」GPU：デュアルレチクル、2万基以上のコア、8TB/秒の288GB HBM3eメモリを搭載し、GB200より50%高速な最速AIチップを発表

NVIDIA は、最先端の AI チップである Blackwell Ultra GB300 を発表しました。これは、前世代の GB200 と比べて 50% の驚異的なパフォーマンス向上と、288 GB という驚異的なメモリを誇ります。

NVIDIAのBlackwell Ultra「GB300」のご紹介：革新的なAIチップ

NVIDIAは先日、 Blackwell Ultra GB300の仕様と機能を概説した詳細な記事を公開しました。この最先端チップは現在量産中で、一部のお客様に供給されています。Blackwell Ultraは、従来のBlackwellモデルと比較して、パフォーマンスと機能が大幅に向上しています。

初代RTXゲーミングカードを改良したNVIDIAのSuperシリーズに倣い、Ultraシリーズは従来のAIチップをさらに強化しています。HopperやVoltaといった初期のラインにはUltra機能は搭載されていませんでしたが、これらの進化が現在のイノベーションの基盤となりました。さらに、Ultra以外のモデルでも、ソフトウェアアップデートや最適化の取り組みを通じて大幅な改善が図られています。

詳細なアーキテクチャと接続仕様を示す NVIDIA Blackwell Ultra GPU の図。

Blackwell Ultra GB300は、NVIDIAの高帯域幅NV-HBIインターフェースで接続されたレチクルサイズのダイ2つを統合し、統合GPUとして動作する先進的な製品です。TSMCの4NPプロセス技術（5nmノードの最適化バージョン）をベースに構築されたこのチップは、2, 080億個ものトランジスタを搭載し、2つのダイ間で10TB/秒の帯域幅という驚異的なパフォーマンスを実現します。

CUDA および Tensor コアを備えた NVIDIA ストリーミングマルチプロセッサアーキテクチャの図。

このGPUは160個のストリーミングマルチプロセッサ（SM）を搭載し、それぞれ合計128個のCUDAコアを備えています。さらに、FP8、FP6、NVFP4の高精度コンピューティングをサポートする第5世代Tensorコアを4個搭載しています。この設計により、合計20, 480個のCUDAコアと640個のTensorコア、そして40MBのTensorメモリ（TMEM）が実現します。

特徴	ホッパー	ブラックウェル	ブラックウェルウルトラ
製造工程	TSMC 4N	TSMC 4NP	TSMC 4NP
トランジスタ	80B	208B	208B
GPUあたりのダイ数	1	2	2
NVFP4 稠密 \| 疎なパフォーマンス	–	10 \| 20 ペタフロップス	15 \| 20 ペタフロップス
FP8 稠密 \| 疎なパフォーマンス	2 \| 4 ペタフロップス	5 \| 10 ペタフロップス	5 \| 10 ペタフロップス
注意加速（SFU EX2）	4.5 テラエクスポネンシャル/秒	5 テラ指数/秒	10.7 テラ指数/秒
最大HBM容量	80 GB HBM (H100) 141 GB HBM3E (H200)	192 GB HBM3E	288 GB HBM3E
最大HBM帯域幅	3.35 TB/秒 (H100) 4.8 TB/秒 (H200)	8TB/秒	8TB/秒
NVLink帯域幅	900GB/秒	1, 800 GB/秒	1, 800 GB/秒
最大出力（TGP）	最大700W	最大1, 200W	最大1, 400W

第5世代Tensorコアのイノベーションは、AIコンピューティングにとって極めて重要です。NVIDIAはこれらのコアを継続的に進化させ、次のような成果をもたらしました。

NVIDIA Volta: 8 スレッド MMA ユニットと FP16 計算のサポートを導入しました。
NVIDIA Ampere:完全なワープワイド MMA、BF16、および TensorFloat-32 で強化されました。
NVIDIA Hopper: 128 スレッドにわたる Warp グループ MMA と FP8 をサポートする Transformer Engine を導入しました。
NVIDIA Blackwell:強化された FP8 および FP6 コンピューティング機能を備えた第 2 世代 Transformer エンジンを搭載。

GPU メモリの比較: Hopper H100 80GB、Hopper H200 141GB、Blackwell 192GB、Blackwell Ultra 288GB。

Blackwell Ultraチップはメモリ容量を大幅に向上させ、Blackwell GB200モデルの最大192GBから、HBM3eで288GBへと増強しました。この飛躍的な増加により、数兆パラメータ規模の大規模なAIモデルのサポートが可能になります。メモリアーキテクチャは、8TB/秒で動作する512ビットコントローラを備えた8つのスタックで構成され、以下の処理を実現します。

完全なモデル対応:メモリをオフロードせずに 3000 億以上のパラメータモデルを処理する機能。
拡張コンテキスト長:トランスフォーマーアプリケーションの KV キャッシュ容量が拡張されました。
計算効率の向上:さまざまなワークロードの計算とメモリの比率が向上します。

Dense FP8 と NVFP4 GPU のパフォーマンスレベルを比較した棒グラフ。

Blackwell アーキテクチャは、NVLINK、NVLINK-C2C、PCIe Gen6 x16 インターフェイスなどの堅牢な相互接続を特徴としており、次の仕様を提供します。

GPU あたりの帯域幅:双方向 1.8 TB/秒 (18 リンク x 100 GB/秒)。
パフォーマンスの向上: NVLink 4 の 2 倍 (Hopper と比較)。
最大トポロジ:非ブロッキングコンピューティングファブリックで最大 576 個の GPU をサポートします。
ラックスケール統合: 130 TB/秒の総帯域幅を持つ 72 個の GPU の構成を可能にします。

PCIe インターフェース: 16 レーンの Gen6、256 GB/秒の双方向スループットを提供。
NVLink-C2C: 900 GB/秒のメモリ一貫性を備えた CPU と GPU 間の通信を容易にします。

相互接続	ホッパーGPU	ブラックウェルGPU	ブラックウェルウルトラ GPU
NVLink（GPU-GPU）	900	1, 800	1, 800
NVLink-C2C (CPU-GPU)	900	900	900
PCIeインターフェース	128（第5世代）	256（第6世代）	256（第6世代）

NVIDIAのBlackwell Ultra GB300は、新しいNVFP4規格の採用により、高密度低精度演算出力を50%も向上させ、FP8に近い精度を最小限の誤差（1%未満）で実現しています。この進歩により、メモリ要件はFP8と比較して最大1.8倍、FP16と比較して最大3.5倍削減されます。

バッチ化された MatMul、Softmax、および高速化インジケーターを備えた Blackwell KV キャッシュアテンションメカニズムの図。

Blackwell Ultra には、次のようなエンタープライズレベルのセキュリティ機能とともに、高度なスケジュール管理も統合されています。

強化された GigaThread エンジン:ワークロードの分散を最適化し、160 個の SM 全体にわたってコンテキスト切り替えのパフォーマンスを強化する高度なスケジューラ。
マルチインスタンス GPU (MIG): GPU をさまざまな MIG インスタンスに分割し、安全なマルチテナントのためにカスタマイズされたメモリ割り当てを可能にする機能。
機密コンピューティング:ハードウェアベースの Trusted Execution Environment (TEE) と安全な NVLink 操作を活用して、パフォーマンスを大幅に低下させることなく、機密性の高い AI モデルを安全に処理するための規定。
高度な NVIDIA リモートアテステーションサービス (RAS):障害を予測し、メンテナンスを最適化することで信頼性を高める AI 駆動型監視システム。

Blackwell Ultra GB300 ではパフォーマンス効率が大幅に向上し、次のグラフに示すように、GB200 と比較して優れた TPS/MW を実現します。

推論パフォーマンスに対するアーキテクチャの影響とパレートフロンティアのユーザーエクスペリエンスシミュレーションのグラフ。

Pareto Frontier における AI アーキテクチャの推論パフォーマンスとユーザーエクスペリエンスへの影響を示すグラフ。

まとめると、NVIDIAはBlackwellアーキテクチャとBlackwell Ultraアーキテクチャに代表されるAIテクノロジーにおいて、引き続きリードし続けています。ソフトウェアサポートと最適化の強化へのコミットメントは、強力な競争優位性を確保し、継続的な研究開発によって支えられており、今後も長年にわたり業界の最前線に君臨し続けることが約束されています。

出典と画像