MetaのCatalina Pod AIシステムは、NVIDIA Blackwell GB200 NVL72、Open Rack v3、高度な液体冷却技術を統合しています。

MetaのCatalina Pod AIシステムは、NVIDIA Blackwell GB200 NVL72、Open Rack v3、高度な液体冷却技術を統合しています。

Meta は、NVIDIA の GB200 NVL72 テクノロジーを活用し、Open Rack v3 と液体冷却システムの進歩も加えた革新的な Catalina AI システムに関する重要な詳細を発表しました。

データセンターの革命:Catalina Pod向けMetaのカスタムNVIDIA GB200 NVL72 Blackwellプラットフォーム

2022年、Metaは主に約6, 000ユニットで構成されるGPUクラスターに注力し、主に従来のランキングやレコメンデーションアルゴリズムのサポートを目的としていました。これらのクラスターは、通常128~512基のGPUで動作していました。しかし、過去1年間で、生成AI(GenAI)と大規模言語モデル(LLM)の爆発的な普及により、目覚ましい変革が起こりました。

AIクラスター規模の年別成長

現在、MetaのGPUクラスターは16, 000~24, 000基という驚異的な規模に拡大しており、これは4倍の増加です。昨年時点で、同社は10万基以上のGPUを運用しており、現在も拡大を続けています。LLamaモデルなどのソフトウェアの進歩により、Metaは近い将来、クラスターの規模が驚異的な10倍に拡大すると予測しています。

Meta、NVIDIA、Open Compute Project のコラボレーション

MetaはNVIDIAと緊密に連携し、NVL72 GPUソリューションを基盤要素として活用しながら、Catalinaプロジェクトを開始しました。システムをそれぞれの要件に合わせてカスタマイズするための変更が加えられ、両社はMGXとNVL72のリファレンスデザインをオープンソースフレームワークに提供し、Open Compute Projectのウェブサイトで広くアクセスできるようにしました。

データセンターITラック

Catalina システムは、Meta のデータ センター全体にわたる最先端の導入を表しており、各システム構成は「ポッド」と呼ばれています。このモジュール設計により、基本フレームワークを複製することで、システムの迅速な拡張が可能になります。

NVIDIA MGX GB200 システム構成
Grace CPU を使用した Meta Catalina 構成

MetaのカスタムNVL72設計の特徴は、デュアルITラックで、それぞれが72基のGPUからなる単一のスケールアップドメインを形成していることです。両ラックの構成は一貫性が保たれており、上部と下部の間に18台のコンピューティングトレイと、両側に9台のNVスイッチが配置されています。冗長ケーブルの統合は、両ラックのGPUリソ​​ースを統合し、実質的に単一のコンピューティングドメインを確立するために不可欠です。

NVIDIA と Meta GB200 NVL72 リソースの比較

各ラックには、高電力密度運用を可能にするために設計された大型のエアアシスト液冷(ALC)ユニットも搭載されています。この構成により、Metaは北米および世界中のデータセンターに液冷システムを効率的に導入できます。

Catalinaアーキテクチャの概要

これらのデュアルラックにより、MetaはCPU数を実質的に倍増させ、メモリ容量を最大化できます。ラックあたり最大34TBのLPDDRメモリを搭載できるため、GPUとCPUの両方からアクセス可能な合計48TBのキャッシュコヒーレントメモリを実現できます。電源ユニット(PSU)は、480ボルトまたは277ボルトの単相で動作し、48ボルトの直流に変換して、アーキテクチャ内のすべてのサーバーブレード、ネットワークデバイス、NVスイッチに電力を供給します。

ハイパワーラックの展開
データセンター冷却システム
データセンターの漏水検知システム
AI最適化された分散型スケジュールファブリックネットワーク
Catalina Interconnectsを使用したGPUネットワーク設定

さらに、この構成では、各ラックの上部と下部に電源シェルフが備えられ、下部には追加ユニットが備えられています。Metaは、バックエンドネットワークに接続されたすべての内部ファイバーケーブルを管理する専用のファイバーパスパネルを実装し、スケールアップドメインをサポートするエンドポイントスイッチへのスムーズな接続を確保しています。

コンピュートトレイの回路図

堅牢なインフラストラクチャを支えるMetaは、NVIDIA NVL72 GB200 Blackwellシステムに固有の高度なテクノロジーに加え、大容量電源やブレードなどの独自の拡張機能を統合しています。液冷システムとラック管理コントローラー(RMC)を組み合わせることで、冷却プロトコルを効率的に管理しながら、同時に漏れを監視します。

Meta Board vs Nvidia GB200 リファレンス
PDB回路基板のクローズアップ
電力配分図
DC-SCM ハードウェアボードのクローズアップ
RMC 設計と接続図
漏れ検知チャート

Metaの大容量OpenRack v3の導入により、ラック内の電力配分が600Aで94kWと大幅に強化され、統合型液冷システムを備えた先進的な施設にも対応可能になりました。この液流管理はRMCによって効率的に行われ、ラック内の様々なコンポーネントの漏れの可能性を監視すると同時に、冷却システムの最適な運用を調整します。

コンピュートトレイのアーキテクチャ図

さらに、Metaは分散型スケジュールファブリックを採用することで、単一のデータ施設内で複数のポッドを相互接続し、複数の建物をシームレスに連携できるスケーラブルなモデルを実現します。このインフラストラクチャはAIアプリケーション向けにカスタマイズされており、GPU間通信とシステム全体の柔軟性を向上させます。

出典と画像

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です