AI芯片大战:NVIDIA面临来自谷歌TPU的强劲挑战,而不仅仅是AMD和英特尔

AI芯片大战:NVIDIA面临来自谷歌TPU的强劲挑战,而不仅仅是AMD和英特尔

在瞬息万变的人工智能领域,英伟达面临着前所未有的挑战,而这些挑战主要并非来自AMD或英特尔,而是来自谷歌——这家新兴竞争对手正在迅速缩小与英伟达之间的差距。英伟达首席执行官黄仁勋对这种竞争格局有着清醒的认识。

乍看之下,谷歌在人工智能硬件领域处于领先地位似乎令人惊讶,但这家科技巨头实际上早在2016年就推出了首款定制人工智能芯片TPU(张量处理单元),远远领先于竞争对手,从而奠定了基础。最近,谷歌发布了其最新成果——第七代Ironwood TPU,这一发布引发了广泛关注,并为英伟达和谷歌之间的激烈竞争拉开了序幕。本文将深入探讨这场对决的关键所在,尤其着重分析谷歌Ironwood TPU带来的技术进步。

谷歌的Ironwood TPU:192 GB HBM 和重大性能提升

谷歌的 Ironwood TPU 即将部署到各种工作负载中,预计很快就会上市。谷歌将 Ironwood 定位为一款“专注于推理”的芯片,并声称它预示着推理性能的新时代,能够提升通用计算的效率。TPU v7(Ironwood)经过精心设计,旨在从模型训练过渡到推理,而推理有望主导当前的技术格局。以下是一些值得关注的规格:

  • 峰值性能比 TPU v5p 提升 10 倍。
  • 与 TPU v6e (Trillium) 相比,每个芯片在训练和推理方面的性能提高了 4 倍。
  • 这是谷歌迄今为止开发的最强大、最节能的定制芯片。

进一步分析其规格,Ironwood 芯片拥有惊人的 192 GB 7.4 TB/s HBM 内存,单芯片峰值性能可达惊人的 4, 614 TFLOPS,比 TPU v4 提升了近 16 倍。此外,随着包含 9, 216 个芯片的 Ironwood TPU Superpod 的推出,谷歌能够为聚合的 FP8 计算工作负载提供高达 42.5 exaFLOPS 的强大性能。此次集成凸显了谷歌创新的互连解决方案,其可扩展性已超越 NVIDIA 的 NVLink。

一个大房间里摆满了成排的服务器机架,这些机架通过各种颜色的电缆错综复杂地连接在一起。
谷歌的Ironwood SuperPod

谷歌专注于互连性,采用了芯片间互连(ICI)技术,这是一种专为可扩展性而设计的强大网络。该技术允许通过 1.8 PB 的网络连接 43 个 Superpod 模块(每个模块包含 64 个芯片)。通过使用网卡进行内部通信,并采用 3D 环形布局来部署 TPU,谷歌优化了互连性,有效提升了可扩展性和芯片密度——在这一领域,谷歌超越了英伟达的产品。

规格 价值
单芯片峰值计算能力(FP8) 约 4, 614 TFLOPS
每个芯片的HBM容量 192 GB HBM3e
每个芯片的内存带宽 约 7.2 TB/s
最大芯片数量 9, 216 个芯片
每个 pod 的峰值计算能力 约 42.5 ExaFLOPS
每个 pod 的系统内存(HBM) 约 1.77 PB
芯片间互连 (ICI) 带宽 每链路约 1.2 Tb/s
绩效改进 比 TPU v4 大约 16 倍

谷歌进军ASIC芯片领域的野心:对英伟达AI霸主地位的真正威胁?

当我们审视Ironwood TPU在当今推理时代的重要性时,必须认识到推理能力日益增长的重要性。传统上,模型训练主导着人工智能领域,NVIDIA的计算解决方案因其在训练场景中的卓越性能而被广泛应用。然而,随着主流模型的普及,推理任务呈爆炸式增长,其数量往往超过了训练需求。

推理性能不仅仅取决于 TFLOPS 运算能力;延迟、吞吐量、效率和每次查询成本等因素正变得越来越重要。研究谷歌的 Ironwood 产品,就能明白为什么它们在这方面可能超越 NVIDIA。例如,Ironwood 拥有与 NVIDIA Blackwell B200 AI GPU 类似的庞大封装内存。此外,SuperPod 的集群能力(包含 9216 个芯片)显著扩展了整体内存容量。

服务器主板特写,图中可见金属冷却块、散热片和用于液冷的连接管道。
一块 Ironwood 主板,展示了三个连接到液冷系统的 Ironwood TPU。

在推理场景中,更高的内存容量至关重要,因为它能最大限度地减少芯片间的通信延迟,并提升大型模型的延迟性能,这进一步增强了Ironwood的吸引力。谷歌精心设计了Ironwood,使其能够适应低延迟环境,同时还提高了能效——这是其预期成功的关键因素。

超大规模推理需要数千个芯片持续高效地处理查询请求,因此对于云服务提供商 (CSP) 而言,部署和运营成本比原始性能更为重要。为此,谷歌的 Ironwood 芯片将能效提高了两倍,从而使其 TPU 更经济高效,适用于广泛的推理应用。

NVIDIA Rubin CPX GPU 专为海量上下文应用而设计,配备 128GB GDDR7 显存等功能,将于 2026 年底上市。
图片来源:NVIDIA公司

人工智能领域的竞争格局正在从单纯追求最高的浮点运算性能(FLOPS)转向更为精细的博弈,涵盖查询处理能力、延迟降低、运营成本和能效等多个方面。这种演变为谷歌提供了一个全新的切入点,使其能够利用英伟达在人工智能领域长期主导地位的潜在弱点,抢占先机。值得注意的是,Ironwood 将仅通过谷歌云平台提供,这可能会导致生态系统锁定,并可能危及英伟达的既有地位。谷歌 TPU 的迭代改进凸显了其竞争优势,预示着一种转变,而这种转变应该对英伟达的战略规划产生影响。

尽管如此,NVIDIA并未对这一新挑战置之不理;它推出了Rubin CPX作为应对之策,旨在通过优化的机架式解决方案开辟一片重要的市场。然而,越来越明显的是,谷歌正在崛起成为NVIDIA的强劲对手,而英特尔和AMD目前在影响力和创新方面仍落后于NVIDIA。

在一段值得注意的评论中,黄仁勋在之前的一次采访中反思了谷歌的TPU功能,并承认了其产品的复杂性和竞争性:

说到这里……最大的争论之一……就是GPU与ASIC、谷歌的TPU、亚马逊的Trainium之间的选择。谷歌……他们在一切开始之前就推出了TPU1。……这对ASIC的开发者来说是一个挑战。

TPU目前使用的是TPU 7版本。是的。没错。这对他们来说也是个挑战。没错。所以他们所做的工作非常艰巨。

图片来源及图片

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注