
NVIDIA は最近、Blackwell GB200 および GB300 システムの詳細な分析を実施し、そのアーキテクチャ設計、ラック、トレイ、Open Compute Project (OCP) との統合に重点を置きました。
NVIDIA、Hot Chips 2025でBlackwellアーキテクチャとオープンコンピューティングへの貢献を発表
Hot Chips 2025イベントにおいて、NVIDIAは昨年の初代Blackwellサーバーの成功に続き、Blackwell Ultraプラットフォームを発表し、強化コンピューティングソリューションのビジョンをさらに拡大しました。メカニカルエンジニアのジョン・ノートンが、NVIDIAのオープンコンピューティング標準への取り組みの一環として、GB200およびGB300システムを包括的に検証するプレゼンテーションを行いました。
プレゼンテーションは、NVIDIAが昨年OCPに貢献したMGXアーキテクチャの詳細な概要から始まりました。ノートン氏は、GB200およびGB300モデルの開発中に直面した様々な課題について説明し、AIや推論にとどまらない幅広いアプリケーションに必要な汎用性を強調しました。

MGXアーキテクチャは、多様なワークロード向けにアクセラレータをグローバルに拡張するという複雑な課題に対処するために特別に設計されました。顧客のニーズは多岐にわたり、独自のネットワーク要件からCPUとGPUのカスタム構成まで多岐にわたります。そのため、NVIDIAは、小さな調整が全体に大きな影響を与える可能性があることを認識し、システム開発に反復的なアプローチを採用しました。この認識が、モジュラー型MGXアーキテクチャの確立につながりました。
NVIDIAは、システムを相互運用可能な小規模コンポーネントに分割することで、システム全体を刷新することなく、個々の要素を変更できるようにしています。この革新的なアプローチは、初期投資を効率化するだけでなく、OCPを通じて柔軟でオープンなプラットフォームを推進し、顧客主導のカスタマイズを促進します。

Nortonはさらに、MGXフレームワークの2つの重要なコンポーネント、すなわちMGXラックインフラストラクチャと、GB200「Blackwell」システムの組み立てに不可欠なMGXコンピューティングおよびスイッチトレイを分析しました。NVIDIAはオープン設計標準を採用することで、透明性とアクセス性を確保しています。OCP経由でダウンロード可能な包括的なモデルと仕様を提供しています。

プレゼンテーションの中で、NVIDIAはGB200およびGB300プラットフォームの高レベル仕様を公開しました。ラックの設計では、上部にスイッチが配置され、その下にデータセンターからの高電圧ACをDCに変換してシステム全体に配電する電源が配置されています。

GB200構成は、10個のコンピュートトレイに300個のチップを搭載し、9個のスイッチトレイと8個のコンピュートトレイが補完しています。各コンピュートトレイは80 FP4ペタフロップスの演算性能を発揮し、合計1.4エクサフロップスのパフォーマンスに貢献しています。システム全体の消費電力は約120キロワットで、各コンピュートトレイは約7キロワットを消費し、NVLinkスパインで相互接続されています。

NVLinkはレーンあたり200Gbpsという驚異的な速度で動作し、GPUトレイとスイッチトレイ間の低レイテンシ通信を実現します。この銅線インターコネクトは、高帯域幅データ転送における銅線の特性の利点を強調しています。

NVIDIAはラック仕様へのアプローチも発表しました。標準的なエンタープライズハードウェアで使用される従来の44.5ミリメートルピッチよりもわずかに狭い48ミリメートルピッチでデバイスを配置することで、ラック内のノード密度を最大化し、数多くの運用上のメリットを生み出しています。

約 35 キロワットを処理できるアップグレードされたバス バー設計にも対処し、強化された銅断面積により最大 1, 400 アンペアまでサポートできるように拡張し、より大きな電力要件に対応できるようにしました。

各コンピュートトレイには、2基のCPUと4基のGPUが統合されており、1基のGrace CPUと2基のBlackwell GPUをサポートするホストプロセッサモジュール(HPM)が組み込まれています。革新的な設計により、柔軟な接続オプションが実現され、I/Oシステムのシームレスな統合が実現します。

トレイには、さまざまな冷却ソリューションやケーブル管理オプションに合わせてカスタマイズ可能な構成も備わっており、対象アプリケーション向けのプラットフォームのモジュール性が強調されています。

コンピュート トレイの背面には、OCP によって標準化され、効率性を高めるための完全な液体冷却をサポートするユニバーサル クイック ディスコネクト (UQD) が装備されています。

最後に、NVIDIAはGB200とGB300の両システムが現在フル稼働しており、世界中の様々なハイパースケールデータセンターに導入されていることを確認しました。NVIDIAは毎年イノベーションを続け、密度、電力効率、冷却ソリューションを強化しており、NVLink Fusionなどの取り組みによってデータ処理能力の大幅な向上が期待されています。
コメントを残す