谷歌的新方法提高了法学硕士(LLM)的速度、能力和成本效益

谷歌的新方法提高了法学硕士(LLM)的速度、能力和成本效益

大型语言模型的演进:挑战与创新

自 OpenAI 于 2022 年推出 GPT-3 以来,像 ChatGPT 这样的大型语言模型 (LLM) 迅速蹿红,彻底改变了编程和信息检索等各个领域。尽管它们被广泛使用,但负责生成响应的推理过程通常速度缓慢,并且需要大量的计算资源。随着用户采用率的不断增长,LLM 开发者面临的紧迫挑战是如何在不影响质量的情况下提高速度和成本承受能力。

当前提高法学硕士效率的方法

在优化 LLM 性能的过程中,出现了两种值得注意的策略:级联推测解码。每种策略都有其优点和局限性。

级联:平衡速度和质量

级联利用较小、较快的模型提供初始响应,然后再参考较大、较复杂的模型。这种分层方法有助于减少计算需求,但也存在一个明显的局限性:连续的等待期。如果较小模型对其输出缺乏信心,这种瓶颈可能会导致延迟。此外,较小模型响应质量的差异可能会影响整体用户体验。

推测解码:一种快速响应机制

相反,推测解码采用较小的“起草者”模型同时预测多个标记,随后由较大的模型进行验证。虽然这种方法旨在加快响应过程,但它也面临着自身的挑战。一个不匹配的标记就可能导致整个起草被忽略,从而抵消任何速度优势,并消除潜在的计算节省。

引入推测级联:一种混合解决方案

认识到这两种方法的局限性,谷歌研究院推出了推测级联(Speculative Cascades),这是一种综合了级联和推测解码优势的混合方法。其核心创新在于一种动态延迟规则,用于确定小模型的草稿标记是否应该被接受或提交给更大的模型。这种机制不仅缓解了与级联相关的顺序延迟,也缓解了推测解码中普遍存在的严格拒绝标准。

实验验证和影响

谷歌研究院利用 Gemma 和 T5 等模型,在摘要、推理和编码等各种任务上进行了广泛的实验。近期一份报告详细阐述了这些研究结果,表明与现有方法相比,推测级联方法能够提供更优的成本质量平衡,并实现更快的加速。值得注意的是,这种混合方法能够比传统的推测解码更快地生成准确的解决方案。

展望未来:法学硕士的未来

虽然推测级联仍处于研究阶段,但实际应用的潜力巨大。如果成功,这种创新方法将彻底改变LLM的格局,使这些技术对用户来说更快、更经济高效,从而提升整体用户体验。

来源和图片

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注