苹果在生成式人工智能领域走了一条独特的道路,选择利用其专有的芯片来开发基于云的应用程序,而不是依赖 NVIDIA GPU。随着即将推出的 M4 Ultra 芯片的推出,这一战略决策预计将得到发展,该芯片旨在增强大型语言模型 (LLM) 的处理能力。然而,最近,苹果表示愿意与 NVIDIA 合作,使用 LLM 加速文本生成过程,展示了两家科技巨头之间协同效应的潜力。
推出“ReDrafter”:文本生成领域的变革者
Apple 最近推出了一项名为“ReDrafter”(Recurrent Drafter 的缩写)的创新技术,为文本生成技术树立了新的标杆。该方法巧妙地整合了两种不同的方法:波束搜索和树注意。这两种策略都旨在提高文本生成性能。经过广泛的内部研究,Apple 与 NVIDIA 合作将 ReDrafter 嵌入 TensorRT-LLM 框架中,这是一种经过优化的复杂工具,可加速在 NVIDIA 硬件上运行的 LLM 的性能。
重要的是,ReDrafter 不仅旨在提高速度,而且还旨在减少操作延迟,同时消耗更少的能源——这是当今技术环境中越来越重要的因素。
“这项研究工作取得了显著成果,但其更大的影响来自于应用于生产以加速 LLM 推理。为了使这一进步能够为 NVIDIA GPU 投入生产,我们与 NVIDIA 合作将 ReDrafter 集成到 NVIDIA TensorRT-LLM 推理加速框架中。
尽管 TensorRT-LLM 支持众多开源 LLM 和 Medusa 推测解码方法,但 ReDrafter 的波束搜索和树注意算法依赖于以前应用程序中从未使用过的运算符。为了实现 ReDrafter 的集成,NVIDIA 添加了新的运算符或公开了现有的运算符,这大大提高了 TensorRT-LLM 适应复杂模型和解码方法的能力。使用 NVIDIA GPU 的 ML 开发人员现在可以轻松受益于 ReDrafter 的加速令牌生成,从而使用 TensorRT-LLM 为其生产 LLM 应用程序提供加速。
在 NVIDIA GPU 上对数百亿参数生产模型进行基准测试时,使用带有 ReDrafter 的 NVIDIA TensorRT-LLM 推理加速框架,我们发现贪婪解码的每秒生成令牌速度提高了 2.7 倍。这些基准测试结果表明,该技术可以显著减少用户可能遇到的延迟,同时使用更少的 GPU 并消耗更少的电量。”
此次合作意味着苹果和英伟达之间可能建立一种联盟,尽管这种联盟还很脆弱,让人想起科技公司经常出于共同利益而建立的伙伴关系。然而,两家公司之间挥之不去的历史紧张关系让人怀疑双方能否建立持久的正式伙伴关系。虽然这种临时合作可能会重新出现,但建立长期联盟的前景似乎不太可能。
欲了解更多详细信息,请参阅 Apple 的原始新闻稿:Apple 官方博客。
此外,您还可以在这篇综合文章中找到见解:Wccftech 的报道。
发表回复