AI芯片大战：NVIDIA面临来自谷歌TPU的强劲挑战，而不仅仅是AMD和英特尔

在瞬息万变的人工智能领域，英伟达面临着前所未有的挑战，而这些挑战主要并非来自AMD或英特尔，而是来自谷歌——这家新兴竞争对手正在迅速缩小与英伟达之间的差距。英伟达首席执行官黄仁勋对这种竞争格局有着清醒的认识。

乍看之下，谷歌在人工智能硬件领域处于领先地位似乎令人惊讶，但这家科技巨头实际上早在2016年就推出了首款定制人工智能芯片TPU（张量处理单元），远远领先于竞争对手，从而奠定了基础。最近，谷歌发布了其最新成果——第七代Ironwood TPU，这一发布引发了广泛关注，并为英伟达和谷歌之间的激烈竞争拉开了序幕。本文将深入探讨这场对决的关键所在，尤其着重分析谷歌Ironwood TPU带来的技术进步。

谷歌的Ironwood TPU：192 GB HBM 和重大性能提升

谷歌的 Ironwood TPU 即将部署到各种工作负载中，预计很快就会上市。谷歌将 Ironwood 定位为一款“专注于推理”的芯片，并声称它预示着推理性能的新时代，能够提升通用计算的效率。TPU v7（Ironwood）经过精心设计，旨在从模型训练过渡到推理，而推理有望主导当前的技术格局。以下是一些值得关注的规格：

峰值性能比 TPU v5p 提升 10 倍。
与 TPU v6e (Trillium) 相比，每个芯片在训练和推理方面的性能提高了 4 倍。
这是谷歌迄今为止开发的最强大、最节能的定制芯片。

进一步分析其规格，Ironwood 芯片拥有惊人的 192 GB 7.4 TB/s HBM 内存，单芯片峰值性能可达惊人的 4, 614 TFLOPS，比 TPU v4 提升了近 16 倍。此外，随着包含 9, 216 个芯片的 Ironwood TPU Superpod 的推出，谷歌能够为聚合的 FP8 计算工作负载提供高达 42.5 exaFLOPS 的强大性能。此次集成凸显了谷歌创新的互连解决方案，其可扩展性已超越 NVIDIA 的 NVLink。

一个大房间里摆满了成排的服务器机架，这些机架通过各种颜色的电缆错综复杂地连接在一起。 — 谷歌的Ironwood SuperPod

谷歌专注于互连性，采用了芯片间互连（ICI）技术，这是一种专为可扩展性而设计的强大网络。该技术允许通过 1.8 PB 的网络连接 43 个 Superpod 模块（每个模块包含 64 个芯片）。通过使用网卡进行内部通信，并采用 3D 环形布局来部署 TPU，谷歌优化了互连性，有效提升了可扩展性和芯片密度——在这一领域，谷歌超越了英伟达的产品。

规格	价值
单芯片峰值计算能力（FP8）	约 4, 614 TFLOPS
每个芯片的HBM容量	192 GB HBM3e
每个芯片的内存带宽	约 7.2 TB/s
最大芯片数量	9, 216 个芯片
每个 pod 的峰值计算能力	约 42.5 ExaFLOPS
每个 pod 的系统内存（HBM）	约 1.77 PB
芯片间互连 (ICI) 带宽	每链路约 1.2 Tb/s
绩效改进	比 TPU v4 大约 16 倍

谷歌进军ASIC芯片领域的野心：对英伟达AI霸主地位的真正威胁？

当我们审视Ironwood TPU在当今推理时代的重要性时，必须认识到推理能力日益增长的重要性。传统上，模型训练主导着人工智能领域，NVIDIA的计算解决方案因其在训练场景中的卓越性能而被广泛应用。然而，随着主流模型的普及，推理任务呈爆炸式增长，其数量往往超过了训练需求。

推理性能不仅仅取决于 TFLOPS 运算能力；延迟、吞吐量、效率和每次查询成本等因素正变得越来越重要。研究谷歌的 Ironwood 产品，就能明白为什么它们在这方面可能超越 NVIDIA。例如，Ironwood 拥有与 NVIDIA Blackwell B200 AI GPU 类似的庞大封装内存。此外，SuperPod 的集群能力（包含 9216 个芯片）显著扩展了整体内存容量。

服务器主板特写，图中可见金属冷却块、散热片和用于液冷的连接管道。 — 一块 Ironwood 主板，展示了三个连接到液冷系统的 Ironwood TPU。

在推理场景中，更高的内存容量至关重要，因为它能最大限度地减少芯片间的通信延迟，并提升大型模型的延迟性能，这进一步增强了Ironwood的吸引力。谷歌精心设计了Ironwood，使其能够适应低延迟环境，同时还提高了能效——这是其预期成功的关键因素。

超大规模推理需要数千个芯片持续高效地处理查询请求，因此对于云服务提供商 (CSP) 而言，部署和运营成本比原始性能更为重要。为此，谷歌的 Ironwood 芯片将能效提高了两倍，从而使其 TPU 更经济高效，适用于广泛的推理应用。

NVIDIA Rubin CPX GPU 专为海量上下文应用而设计，配备 128GB GDDR7 显存等功能，将于 2026 年底上市。 — 图片来源：NVIDIA公司

人工智能领域的竞争格局正在从单纯追求最高的浮点运算性能（FLOPS）转向更为精细的博弈，涵盖查询处理能力、延迟降低、运营成本和能效等多个方面。这种演变为谷歌提供了一个全新的切入点，使其能够利用英伟达在人工智能领域长期主导地位的潜在弱点，抢占先机。值得注意的是，Ironwood 将仅通过谷歌云平台提供，这可能会导致生态系统锁定，并可能危及英伟达的既有地位。谷歌 TPU 的迭代改进凸显了其竞争优势，预示着一种转变，而这种转变应该对英伟达的战略规划产生影响。

尽管如此，NVIDIA并未对这一新挑战置之不理；它推出了Rubin CPX作为应对之策，旨在通过优化的机架式解决方案开辟一片重要的市场。然而，越来越明显的是，谷歌正在崛起成为NVIDIA的强劲对手，而英特尔和AMD目前在影响力和创新方面仍落后于NVIDIA。

在一段值得注意的评论中，黄仁勋在之前的一次采访中反思了谷歌的TPU功能，并承认了其产品的复杂性和竞争性：

说到这里……最大的争论之一……就是GPU与ASIC、谷歌的TPU、亚马逊的Trainium之间的选择。谷歌……他们在一切开始之前就推出了TPU1。……这对ASIC的开发者来说是一个挑战。

TPU目前使用的是TPU 7版本。是的。没错。这对他们来说也是个挑战。没错。所以他们所做的工作非常艰巨。

图片来源及图片

AI芯片大战：NVIDIA面临来自谷歌TPU的强劲挑战，而不仅仅是AMD和英特尔

谷歌的Ironwood TPU：192 GB HBM 和重大性能提升

谷歌进军ASIC芯片领域的野心：对英伟达AI霸主地位的真正威胁？

相关文章:

即将推出的 M5 Pro、M5 Max 和 M5 Ultra 芯片组将用于新款 MacBook Pro 和 Mac Studio 机型，预计将于 2026 年上半年发布。

发表回复取消回复

谷歌的Ironwood TPU：192 GB HBM 和重大性能提升

谷歌进军ASIC芯片领域的野心：对英伟达AI霸主地位的真正威胁？

相关文章:

发表回复 取消回复

发表回复取消回复