NVIDIA 凭借 Blackwell GPU 和 Meta 的 Llama 4 Maverick 突破 1,000 TPS 障碍，创下令牌速度纪录

NVIDIA推出Blackwell架构，在人工智能（AI）性能上取得重大突破，这主要归功于一系列战略优化和硬件能力的提升。

Blackwell 的进展：提升大规模语言模型的 AI 性能

NVIDIA 不断突破 AI 的界限，凭借其 Blackwell 技术取得了令人瞩目的进展。在最近的一篇博客文章中，该公司宣布，他们使用配备八个 NVIDIA Blackwell GPU 的单个 DGX B200 节点，实现了每秒 1, 000 个代币 (TP/S) 的惊人速度。这一成就是在与 Meta 庞大的 4000 亿参数 Llama 4 Maverick 模型合作时取得的，展现了 NVIDIA AI 生态系统对行业的深远影响。

凭借这一先进配置，NVIDIA Blackwell 服务器可提供高达 72, 000 TP/s 的惊人速度。正如首席执行官黄仁勋在 Computex 主题演讲中所强调的那样，各组织现在比以往任何时候都更有动力展示其 AI 方面的进步，尤其是在代币输出率方面。这一趋势表明 NVIDIA 致力于增强 AI 开发的这一特定方面。

实现如此突破性的速度离不开大量的软件优化，尤其是通过 TensorRT-LLM 和创新的推测解码模型，性能提升了四倍。NVIDIA 团队深入研究了有助于对 Blackwell 进行微调以适应广泛的大型语言模型 (LLM) 的各种元素。其中一项关键创新是推测解码的使用，这种方法采用灵活的“草稿”模型来预测未来的多个标记，同时主（更大的）模型同时验证这些预测。

推测解码是一种常用的技术，用于在不影响生成文本质量的情况下加速 LLM 的推理速度。它通过让一个更小、更快的“草稿”模型预测一系列推测标记来实现这一目标，然后由更大的“目标”LLM 并行验证这些标记。

加速来自于在一次目标模型迭代中生成潜在的多个标记，但代价是额外的草稿模型开销。

– NVIDIA

此外，NVIDIA 还实现了基于 EAGLE3 的架构，这是一个以软件为中心的框架，旨在增强大型语言模型的推理过程，而非单纯依赖 GPU 硬件的进步。凭借这些发展，NVIDIA 不仅巩固了其在 AI 领域的领导地位，还将 Blackwell 定位为 Llama 4 Maverick 等知名 LLM 的优化解决方案。这一里程碑代表着我们朝着未来实现更快速、更无缝的 AI 交互迈出了关键一步。

来源和图片