NVIDIA Blackwell AI 伺服器過熱和故障問題促使微軟、Google等大客戶減少訂單

NVIDIA Blackwell AI 伺服器過熱和故障問題促使微軟、Google等大客戶減少訂單

據報道,NVIDIA 即將推出的 Blackwell AI 伺服器正面臨重大的供應鏈挑戰,因為該公司正在努力解決與設計中的過熱和架構缺陷相關的問題。

Blackwell AI 伺服器交付延遲促使客戶轉向「Hopper」系列

NVIDIA Blackwell AI 伺服器的推出並沒有達到預期,這表明 Team Green 目前面臨著巨大的障礙。最初預計將於 2024 年第四季開始量產,但新的 AI 架構似乎受到設計缺陷的困擾,導致過熱問題。儘管 NVIDIA 先前堅稱這些問題已得到解決,但The Information的調查報告卻表明了相反的觀點,並將 Blackwell AI 伺服器描述為遇到了「故障」。

該報告強調,NVIDIA GB200 AI 伺服器最初的大量出貨受到過熱和故障問題的困擾,主要源於「晶片連接」問題。 Meta,導致Blackwell 伺服器訂單減少,儘管這些公司之前簽訂的協議超過100 億美元。

NVIDIA GB200人工智慧伺服器

新出現的情況對 NVIDIA 來說至關重要,並對其人工智慧部門的獲利能力構成潛在威脅,因為供應鏈中斷可能會產生嚴重的財務影響。雖然有關問題確切性質的細節仍不清楚,但先前的見解表明,台積電的先進封裝技術(稱為 CoWoS)是前面提到的晶片連接問題的核心。 NVIDIA 確實宣布了對台積電生產的 Blackwell GPU 遮罩的修改;然而,這些變化尚未產生令人滿意的結果。

因此,許多客戶正在轉向更可靠的替代方案,例如 NVIDIA 成熟的 Hopper 世代提供的替代方案,同時等待 Blackwell 揮之不去的問題得到解決。截至目前,對 NVIDIA 財務表現的影響程度仍不確定。然而,如果沒有及時解決,Blackwell 架構未來的成功將面臨危險,這可能會為 NVIDIA 的發展帶來進一步的複雜性。

來源和圖片

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *