Meta 的 Catalina Pod AI 系统集成了 NVIDIA Blackwell GB200 NVL72、Open Rack v3 和先进的液体冷却技术

Meta 公布了其创新型 Catalina AI 系统的重要细节，该系统利用 NVIDIA 的 GB200 NVL72 技术以及 Open Rack v3 和液体冷却系统的进步。

数据中心革命：Meta 为 Catalina Pod 定制的 NVIDIA GB200 NVL72 Blackwell 平台

2022 年，Meta 的重点主要放在通常包含约 6, 000 个单元的 GPU 集群上，主要用于支持传统的排名和推荐算法。这些集群的负载通常在 128 到 512 个 GPU 之间。然而，在过去一年中，受生成式人工智能 (GenAI) 和大型语言模型 (LLM) 爆炸式增长的推动，发生了显著的转变。

如今，Meta 的 GPU 集群已扩展到令人印象深刻的 16, 000 到 24, 000 块 GPU，增长了四倍。截至去年，该公司运营着超过 100, 000 块 GPU，并且还在持续扩张。随着 LLama 模型等软件的进步，Meta 预测其集群规模在不久的将来将达到惊人的十倍增长。

Meta 与 NVIDIA 紧密合作，以 NVL72 GPU 解决方案为基础，共同启动了 Catalina 项目。双方对系统进行了修改，使其符合各自的特定需求。此外，两家公司还为开源框架贡献了 MGX 和 NVL72 的参考设计，使其能够在开放计算项目 (OCP) 网站上广泛访问。

Catalina 系统代表了 Meta 在其数据中心的尖端部署，其中每个系统配置都称为“pod”。这种模块化设计通过复制基本框架实现了系统的快速扩展。

Meta 定制 NVL72 设计的显著特点是其双 IT 机架，每个机架构成一个包含 72 个 GPU 的单一纵向扩展域。两个机架的配置保持一致，上下两部分之间各有 18 个计算托盘，两侧各有 9 个 NV 交换机。冗余布线的集成对于统一两个机架的 GPU 资源至关重要，从而有效地建立单一计算域。

每个机架还配备大型空气辅助液体冷却 (ALC) 装置，旨在实现高功率密度运行。这种配置使 Meta 能够在北美乃至全球的数据中心高效地部署液体冷却系统。

借助这些双机架，Meta 可以有效地将 CPU 数量翻倍，并最大化内存容量，每个机架最多可容纳 34 TB 的 LPDDR 内存，从而实现 GPU 和 CPU 均可访问的总计 48 TB 的缓存一致性内存。电源单元 (PSU) 采用 480 伏或 277 伏单相电压，转换为 48 伏直流电，为架构内的所有服务器刀片、网络设备和 NV 交换机供电。