
NVIDIA は、最先端の AI チップである Blackwell Ultra GB300 を発表しました。これは、前世代の GB200 と比べて 50% の驚異的なパフォーマンス向上と、288 GB という驚異的なメモリを誇ります。
NVIDIAのBlackwell Ultra「GB300」のご紹介:革新的なAIチップ
NVIDIAは先日、 Blackwell Ultra GB300の仕様と機能を概説した詳細な記事を公開しました。この最先端チップは現在量産中で、一部のお客様に供給されています。Blackwell Ultraは、従来のBlackwellモデルと比較して、パフォーマンスと機能が大幅に向上しています。

初代RTXゲーミングカードを改良したNVIDIAのSuperシリーズに倣い、Ultraシリーズは従来のAIチップをさらに強化しています。HopperやVoltaといった初期のラインにはUltra機能は搭載されていませんでしたが、これらの進化が現在のイノベーションの基盤となりました。さらに、Ultra以外のモデルでも、ソフトウェアアップデートや最適化の取り組みを通じて大幅な改善が図られています。

Blackwell Ultra GB300は、NVIDIAの高帯域幅NV-HBIインターフェースで接続されたレチクルサイズのダイ2つを統合し、統合GPUとして動作する先進的な製品です。TSMCの4NPプロセス技術(5nmノードの最適化バージョン)をベースに構築されたこのチップは、2, 080億個ものトランジスタを搭載し、2つのダイ間で10TB/秒の帯域幅という驚異的なパフォーマンスを実現します。

このGPUは160個のストリーミングマルチプロセッサ(SM)を搭載し、それぞれ合計128個のCUDAコアを備えています。さらに、FP8、FP6、NVFP4の高精度コンピューティングをサポートする第5世代Tensorコアを4個搭載しています。この設計により、合計20, 480個のCUDAコアと640個のTensorコア、そして40MBのTensorメモリ(TMEM)が実現します。
特徴 | ホッパー | ブラックウェル | ブラックウェル ウルトラ |
---|---|---|---|
製造工程 | TSMC 4N | TSMC 4NP | TSMC 4NP |
トランジスタ | 80B | 208B | 208B |
GPUあたりのダイ数 | 1 | 2 | 2 |
NVFP4 稠密 | 疎なパフォーマンス | – | 10 | 20 ペタフロップス | 15 | 20 ペタフロップス |
FP8 稠密 | 疎なパフォーマンス | 2 | 4 ペタフロップス | 5 | 10 ペタフロップス | 5 | 10 ペタフロップス |
注意加速(SFU EX2) | 4.5 テラエクスポネンシャル/秒 | 5 テラ指数/秒 | 10.7 テラ指数/秒 |
最大HBM容量 | 80 GB HBM (H100) 141 GB HBM3E (H200) | 192 GB HBM3E | 288 GB HBM3E |
最大HBM帯域幅 | 3.35 TB/秒 (H100) 4.8 TB/秒 (H200) | 8TB/秒 | 8TB/秒 |
NVLink帯域幅 | 900GB/秒 | 1, 800 GB/秒 | 1, 800 GB/秒 |
最大出力(TGP) | 最大700W | 最大1, 200W | 最大1, 400W |
第5世代Tensorコアのイノベーションは、AIコンピューティングにとって極めて重要です。NVIDIAはこれらのコアを継続的に進化させ、次のような成果をもたらしました。
- NVIDIA Volta: 8 スレッド MMA ユニットと FP16 計算のサポートを導入しました。
- NVIDIA Ampere:完全なワープワイド MMA、BF16、および TensorFloat-32 で強化されました。
- NVIDIA Hopper: 128 スレッドにわたる Warp グループ MMA と FP8 をサポートする Transformer Engine を導入しました。
- NVIDIA Blackwell:強化された FP8 および FP6 コンピューティング機能を備えた第 2 世代 Transformer エンジンを搭載。

Blackwell Ultraチップはメモリ容量を大幅に向上させ、Blackwell GB200モデルの最大192GBから、HBM3eで288GBへと増強しました。この飛躍的な増加により、数兆パラメータ規模の大規模なAIモデルのサポートが可能になります。メモリアーキテクチャは、8TB/秒で動作する512ビットコントローラを備えた8つのスタックで構成され、以下の処理を実現します。
- 完全なモデル対応:メモリをオフロードせずに 3000 億以上のパラメータ モデルを処理する機能。
- 拡張コンテキスト長:トランスフォーマー アプリケーションの KV キャッシュ容量が拡張されました。
- 計算効率の向上:さまざまなワークロードの計算とメモリの比率が向上します。

Blackwell アーキテクチャは、NVLINK、NVLINK-C2C、PCIe Gen6 x16 インターフェイスなどの堅牢な相互接続を特徴としており、次の仕様を提供します。
- GPU あたりの帯域幅:双方向 1.8 TB/秒 (18 リンク x 100 GB/秒)。
- パフォーマンスの向上: NVLink 4 の 2 倍 (Hopper と比較)。
- 最大トポロジ:非ブロッキング コンピューティング ファブリックで最大 576 個の GPU をサポートします。
- ラックスケール統合: 130 TB/秒の総帯域幅を持つ 72 個の GPU の構成を可能にします。
- PCIe インターフェース: 16 レーンの Gen6、256 GB/秒の双方向スループットを提供。
- NVLink-C2C: 900 GB/秒のメモリ一貫性を備えた CPU と GPU 間の通信を容易にします。
相互接続 | ホッパーGPU | ブラックウェルGPU | ブラックウェル ウルトラ GPU |
---|---|---|---|
NVLink(GPU-GPU) | 900 | 1, 800 | 1, 800 |
NVLink-C2C (CPU-GPU) | 900 | 900 | 900 |
PCIeインターフェース | 128(第5世代) | 256(第6世代) | 256(第6世代) |
NVIDIAのBlackwell Ultra GB300は、新しいNVFP4規格の採用により、高密度低精度演算出力を50%も向上させ、FP8に近い精度を最小限の誤差(1%未満)で実現しています。この進歩により、メモリ要件はFP8と比較して最大1.8倍、FP16と比較して最大3.5倍削減されます。

Blackwell Ultra には、次のようなエンタープライズ レベルのセキュリティ機能とともに、高度なスケジュール管理も統合されています。
- 強化された GigaThread エンジン:ワークロードの分散を最適化し、160 個の SM 全体にわたってコンテキスト切り替えのパフォーマンスを強化する高度なスケジューラ。
- マルチインスタンス GPU (MIG): GPU をさまざまな MIG インスタンスに分割し、安全なマルチテナントのためにカスタマイズされたメモリ割り当てを可能にする機能。
- 機密コンピューティング:ハードウェアベースの Trusted Execution Environment (TEE) と安全な NVLink 操作を活用して、パフォーマンスを大幅に低下させることなく、機密性の高い AI モデルを安全に処理するための規定。
- 高度な NVIDIA リモート アテステーション サービス (RAS):障害を予測し、メンテナンスを最適化することで信頼性を高める AI 駆動型監視システム。
Blackwell Ultra GB300 ではパフォーマンス効率が大幅に向上し、次のグラフに示すように、GB200 と比較して優れた TPS/MW を実現します。




まとめると、NVIDIAはBlackwellアーキテクチャとBlackwell Ultraアーキテクチャに代表されるAIテクノロジーにおいて、引き続きリードし続けています。ソフトウェアサポートと最適化の強化へのコミットメントは、強力な競争優位性を確保し、継続的な研究開発によって支えられており、今後も長年にわたり業界の最前線に君臨し続けることが約束されています。
コメントを残す