
NVIDIA 的 Blackwell GPU 已将自己定位于 AI 推理性能的前沿,与竞争对手相比,利用该技术的企业的利润率明显更高。
NVIDIA 的全面 AI 软件和优化:超越 AMD 的竞争优势
摩根士丹利研究部最近的分析对不同技术提供商在AI推理工作负载方面的利润率和运营成本进行了全面比较。研究结果显示,作为AI推理“工厂”的公司的利润率超过50%,其中NVIDIA遥遥领先。

该研究评估了一系列人工智能工厂,特别是那些需要100兆瓦电力的工厂,这些工厂采用了来自NVIDIA、谷歌、AMD、AWS和华为等多家关键行业参与者的服务器机架。其中,NVIDIA的GB200 NVL72“Blackwell”GPU平台脱颖而出,实现了高达77.6%的惊人利润率,预计利润约为35亿美元。
谷歌的 TPU v6e pod 紧随其后,利润率为 74.9%,而 AWS 的 Trn2 Ultraserver 则以 62.5% 的利润率位居第三。其他解决方案的利润率通常在 40-50% 左右,但 AMD 的性能指标显示,其利润率还有很大的提升空间。

与之形成鲜明对比的是,AMD 向其最新 MI355X 平台的转型导致了令人不安的负利润率,高达 28.2%。早期的 MI300X 型号表现更糟,在 AI 推理性能方面,利润率高达惊人的负 64.0%。摩根士丹利的报告还细分了每芯片每小时的创收,显示 NVIDIA 的 GB200 每小时创收 7.5 美元,其次是 HGX H200,创收 3.7 美元。相比之下,AMD 的 MI355X 每小时仅创收 1.7 美元,而大多数其他竞争对手的创收在 0.5 美元到 2.0 美元之间,这表明 NVIDIA 在该领域占据主导地位。

NVIDIA 在 AI 推理领域的巨大优势主要源于其对 FP4 的支持以及对其 CUDA AI 堆栈的持续增强。该公司对其几款早期 GPU 模型(包括 Hopper 甚至 Blackwell)进行了有效的处理,如同对葡萄酒进行精酿——每个季度都逐步提升其性能。
虽然 AMD 的 MI300 和 MI350 平台在硬件功能方面表现出色,但该公司在优化 AI 推理软件方面仍面临挑战,这是亟需改进的领域。

值得注意的是,摩根士丹利还指出,AMD MI300X 平台的总拥有成本 (TCO) 高达 7.44 亿美元,而 NVIDIA GB200 平台约为 8 亿美元。这表明 AMD 的成本结构在竞争格局中可能并不有利。较新的 MI355X 服务器的预计 TCO 为 5.88 亿美元,与华为的 CloudMatrix 384 相近,但较高的初始支出可能会阻止潜在用户选择 AMD,尤其是考虑到 NVIDIA 卓越的 AI 推理性能,预计未来几年将占据 85% 的 AI 市场。
NVIDIA 和 AMD 都力求保持同步发展。NVIDIA 计划于今年推出 Blackwell Ultra GPU,承诺性能较现有 GB200 型号提升 50%。之后,即将推出的 Rubin 平台预计将于 2026 年上半年投入生产,届时还将推出 Rubin Ultra 和 Feynman。与此同时,AMD 计划于明年推出 MI400 与 Rubin 竞争,并预计将为其 MI400 系列实施多项 AI 推理优化,这将在 AI 领域掀起一场精彩纷呈的竞争。
新闻来源:WallStreetCN、Jukanlosreve
发表回复