NVIDIA Blackwell AI 服务器过热和故障问题导致微软和谷歌等主要客户减少订单

NVIDIA Blackwell AI 服务器过热和故障问题导致微软和谷歌等主要客户减少订单

据报道,NVIDIA 即将推出的 Blackwell AI 服务器正面临重大的供应链挑战,因为该公司正在努力解决与设计中的过热和架构缺陷相关的问题。

Blackwell AI 服务器交付延迟促使客户转向“Hopper”系列

NVIDIA 的 Blackwell AI 服务器的发布并不像预期的那样顺利,这表明 Green 团队目前面临着巨大的障碍。最初预计将于 2024 年第四季度开始量产,但看来新的 AI 架构受到设计缺陷的困扰,导致过热问题。尽管 NVIDIA 之前坚称这些问题已经得到解决,但The Information的一份调查报告表明情况并非如此,称 Blackwell AI 服务器出现了“故障”。

该报告重点指出,NVIDIA GB200 AI服务器首批大批量出货,存在过热和故障问题,主要源于“芯片连接”问题。此类问题引发了微软、亚马逊、谷歌、Meta等大客户的担忧,导致他们对Blackwell服务器的订单减少,尽管这些公司此前签订的协议金额已超过100亿美元。

NVIDIA GB200 AI 服务器

这种新情况对 NVIDIA 来说至关重要,并对其 AI 部门的盈利能力构成潜在威胁,因为供应链中断可能会带来严重的财务影响。虽然有关问题确切性质的细节仍不清楚,但先前的见解表明,台积电的先进封装技术 CoWoS 是前面提到的芯片连接问题的核心。NVIDIA 确实宣布对台积电生产的 Blackwell GPU 掩模进行了修改;然而,这些变化尚未产生令人满意的结果。

因此,许多客户正在转向更可靠的替代方案,例如 NVIDIA 成熟的 Hopper 一代提供的方案,同时等待 Blackwell 问题的解决方案。截至目前,对 NVIDIA 财务业绩的影响程度仍不确定。然而,如果没有及时的解决方案,Blackwell 架构的未来成功将岌岌可危,这可能会给 NVIDIA 的未来发展带来进一步的困难。

来源和图片

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注