微软发布全新 Azure AI 超级工厂架构

微软宣布在亚特兰大新建 Azure AI 数据中心

今天，微软正式公布了在佐治亚州亚特兰大建设全新 Azure AI 数据中心的计划。这座最先进的设施将与位于威斯康星州费尔沃特的现有数据中心以及多台 Azure AI 超级计算机互联。其目标是打造一个综合性的、全球规模的 AI 数据中心，能够高效管理各种各样的 AI 任务。

微软利用在构建满足 OpenAI 训练需求和其他 AI 应用需求的定制数据中心过程中积累的经验，声称已彻底改变了 AI 数据中心的架构。全新的AI 数据中心设计采用扁平化网络结构，充分利用众多 NVIDIA GB200 和 GB300 GPU 的强大计算能力，从而实现前所未有的性能。

即将建成的亚特兰大数据中心将引入多项突破性功能，使其与之前的数据中心截然不同：

高GPU密度：定制设计的机架经过优化布置，可最大限度地放置GPU，从而最大限度地减少延迟并增强GPU之间的通信。
闭环液冷：一种创新的密封冷却生态系统，可节约用水，使用同一供水系统超过六年，蒸发量极小，在促进可持续发展的同时支持高密度计算。
强大的电力供应：每机架约 140 kW 和每排约 1.36 MW，该装置经过精心设计，可满足下一代加速器的需求，而不会遇到传统的电力限制。
扁平化、高带宽网络：该设计采用双层以太网框架，提供 800 Gbps GPU 连接以及基于 SONiC 的网络，旨在最大限度地降低成本、复杂性和对特定供应商的依赖。
应用感知网络优化：实时数据包管理和复杂的负载均衡等功能可确保庞大的 GPU 集群保持高利用率。
行星级人工智能广域网：通过专用的低延迟光纤骨干网连接包括亚特兰大和威斯康星州在内的多个站点，创建了一个跨越多个区域的统一“超级计算机”。
弹性电力模型：该方法利用强大的本地公用电网来提高可靠性，并结合储能解决方案来适应工作负载功率需求的变化。
多功能 AI 工作负载支持：该基础设施旨在统一平台上有效执行各种 AI 任务，包括预训练和微调、强化学习、推理和合成数据生成。

通过建立统一的多区域超级计算机，微软正在战略性地定位自身，以满足未来几年大规模人工智能工作流程预计将带来的激增需求。