
Meta 公布了其创新型 Catalina AI 系统的重要细节,该系统利用 NVIDIA 的 GB200 NVL72 技术以及 Open Rack v3 和液体冷却系统的进步。
数据中心革命:Meta 为 Catalina Pod 定制的 NVIDIA GB200 NVL72 Blackwell 平台
2022 年,Meta 的重点主要放在通常包含约 6, 000 个单元的 GPU 集群上,主要用于支持传统的排名和推荐算法。这些集群的负载通常在 128 到 512 个 GPU 之间。然而,在过去一年中,受生成式人工智能 (GenAI) 和大型语言模型 (LLM) 爆炸式增长的推动,发生了显著的转变。

如今,Meta 的 GPU 集群已扩展到令人印象深刻的 16, 000 到 24, 000 块 GPU,增长了四倍。截至去年,该公司运营着超过 100, 000 块 GPU,并且还在持续扩张。随着 LLama 模型等软件的进步,Meta 预测其集群规模在不久的将来将达到惊人的十倍增长。

Meta 与 NVIDIA 紧密合作,以 NVL72 GPU 解决方案为基础,共同启动了 Catalina 项目。双方对系统进行了修改,使其符合各自的特定需求。此外,两家公司还为开源框架贡献了 MGX 和 NVL72 的参考设计,使其能够在开放计算项目 (OCP) 网站上广泛访问。

Catalina 系统代表了 Meta 在其数据中心的尖端部署,其中每个系统配置都称为“pod”。这种模块化设计通过复制基本框架实现了系统的快速扩展。


Meta 定制 NVL72 设计的显著特点是其双 IT 机架,每个机架构成一个包含 72 个 GPU 的单一纵向扩展域。两个机架的配置保持一致,上下两部分之间各有 18 个计算托盘,两侧各有 9 个 NV 交换机。冗余布线的集成对于统一两个机架的 GPU 资源至关重要,从而有效地建立单一计算域。

每个机架还配备大型空气辅助液体冷却 (ALC) 装置,旨在实现高功率密度运行。这种配置使 Meta 能够在北美乃至全球的数据中心高效地部署液体冷却系统。

借助这些双机架,Meta 可以有效地将 CPU 数量翻倍,并最大化内存容量,每个机架最多可容纳 34 TB 的 LPDDR 内存,从而实现 GPU 和 CPU 均可访问的总计 48 TB 的缓存一致性内存。电源单元 (PSU) 采用 480 伏或 277 伏单相电压,转换为 48 伏直流电,为架构内的所有服务器刀片、网络设备和 NV 交换机供电。





此外,该配置在每个机架的顶部和底部均设有电源架,并在底部配有附加单元。Meta 部署了一个专用光纤路径面板,用于管理连接到后端网络的所有内部光纤布线,确保与端点交换机的顺畅连接,从而支持扩展域。

为了支持强大的基础架构,Meta 集成了 NVIDIA NVL72 GB200 Blackwell 系统固有的先进技术,并配备了高容量电源和刀片等独特的增强功能。液体冷却系统与机架管理控制器 (RMC) 相结合,确保高效管理冷却协议,同时监控泄漏情况。






此次部署标志着 Meta 高容量 OpenRack v3 的显著提升,将机架内的功率分配提升至 94 kW,电流为 600A,使其能够与配备集成液冷系统的先进设施兼容。液流管理中心 (RMC) 高效地管理液流,它能够监控机架内各个组件是否存在潜在泄漏,同时协调冷却系统的最佳运行。

此外,Meta 采用的分布式调度架构,能够实现单个数据设施内多个 Pod 的互连,从而构建一个可扩展的模型,无缝连接多栋建筑。该基础设施专为 AI 应用量身定制,增强了 GPU 间的通信能力,并提升了整体系统的灵活性。
发表回复