微軟發布全新 Azure AI 超級工廠架構

微軟宣佈在亞特蘭大新建 Azure AI 資料中心

今天，微軟正式宣布了在喬治亞州亞特蘭大建造全新 Azure AI 資料中心的計畫。這座最先進的設施將與位於威斯康辛州費爾沃特的現有資料中心以及多台 Azure AI 超級電腦互聯。其目標是打造一個綜合性的、全球規模的 AI 資料中心，能夠有效率地管理各種各樣的 AI 任務。

微軟利用在建立滿足 OpenAI 訓練需求和其他 AI 應用需求的客製化資料中心過程中累積的經驗，聲稱已徹底改變了 AI 資料中心的架構。全新的AI 資料中心設計採用扁平化網路結構，充分利用眾多 NVIDIA GB200 和 GB300 GPU 的強大運算能力，以達到前所未有的效能。

即將建成的亞特蘭大資料中心將引進多項突破性功能，使其與先前的資料中心截然不同：

高GPU密度：客製化設計的機架經過最佳化佈置，可最大限度地放置GPU，從而最大限度地減少延遲並增強GPU之間的通訊。
閉環液冷：一種創新的密封冷卻生態系統，可節約用水，使用同一供水系統超過六年，蒸發量極小，在促進永續發展的同時支持高密度計算。
強大的電力供應：每機架約 140 kW 和每排約 1.36 MW，該裝置經過精心設計，可滿足下一代加速器的需求，而不會遇到傳統的電力限制。
扁平化、高頻寬網路：該設計採用雙層乙太網路框架，提供 800 Gbps GPU 連接以及基於 SONiC 的網絡，旨在最大限度地降低成本、複雜性和對特定供應商的依賴。
應用感知網路最佳化：即時資料包管理和複雜的負載平衡等功能可確保龐大的 GPU 叢集保持高利用率。
行星級人工智慧廣域網路：透過專用的低延遲光纖骨幹網路連接包括亞特蘭大和威斯康辛州在內的多個站點，創建了一個跨越多個區域的統一「超級電腦」。
彈性電力模型：此方法利用強大的本地公用電網來提高可靠性，並結合儲能解決方案來適應工作負載功率需求的變化。
多功能 AI 工作負載支援：此基礎設施旨在統一平台上有效執行各種 AI 任務，包括預訓練和微調、強化學習、推理和合成資料產生。

透過建立統一的多區域超級計算機，微軟正在策略性地定位自身，以滿足未來幾年大規模人工智慧工作流程預計將帶來的激增需求。