NVIDIA 凭借 Blackwell GPU 和 Meta 的 Llama 4 Maverick 突破 1,000 TPS 障碍,创下令牌速度纪录

NVIDIA 凭借 Blackwell GPU 和 Meta 的 Llama 4 Maverick 突破 1,000 TPS 障碍,创下令牌速度纪录

NVIDIA推出Blackwell架构,在人工智能(AI)性能上取得重大突破,这主要归功于一系列战略优化和硬件能力的提升。

Blackwell 的进展:提升大规模语言模型的 AI 性能

NVIDIA 不断突破 AI 的界限,凭借其 Blackwell 技术取得了令人瞩目的进展。在最近的一篇博客文章中,该公司宣布,他们使用配备八个 NVIDIA Blackwell GPU 的单个 DGX B200 节点,实现了每秒 1, 000 个代币 (TP/S) 的惊人速度。这一成就是在与 Meta 庞大的 4000 亿参数 Llama 4 Maverick 模型合作时取得的,展现了 NVIDIA AI 生态系统对行业的深远影响。

NVIDIA Blackwell 架构

凭借这一先进配置,NVIDIA Blackwell 服务器可提供高达 72, 000 TP/s 的惊人速度。正如首席执行官黄仁勋在 Computex 主题演讲中所强调的那样,各组织现在比以往任何时候都更有动力展示其 AI 方面的进步,尤其是在代币输出率方面。这一趋势表明 NVIDIA 致力于增强 AI 开发的这一特定方面。

实现如此突破性的速度离不开大量的软件优化,尤其是通过 TensorRT-LLM 和创新的推测解码模型,性能提升了四倍。NVIDIA 团队深入研究了有助于对 Blackwell 进行微调以适应广泛的大型语言模型 (LLM) 的各种元素。其中一项关键创新是推测解码的使用,这种方法采用灵活的“草稿”模型来预测未来的多个标记,同时主(更大的)模型同时验证这些预测。

推测解码是一种常用的技术,用于在不影响生成文本质量的情况下加速 LLM 的推理速度。它通过让一个更小、更快的“草稿”模型预测一系列推测标记来实现这一目标,然后由更大的“目标”LLM 并行验证这些标记。

加速来自于在一次目标模型迭代中生成潜在的多个标记,但代价是额外的草稿模型开销。

– NVIDIA

此外,NVIDIA 还实现了基于 EAGLE3 的架构,这是一个以软件为中心的框架,旨在增强大型语言模型的推理过程,而非单纯依赖 GPU 硬件的进步。凭借这些发展,NVIDIA 不仅巩固了其在 AI 领域的领导地位,还将 Blackwell 定位为 Llama 4 Maverick 等知名 LLM 的优化解决方案。这一里程碑代表着我们朝着未来实现更快速、更无缝的 AI 交互迈出了关键一步。

来源和图片

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注