
人工智能在语言模型评估中的兴起:一种新方法
在人工智能领域,研究人员越来越多地采用大型语言模型 (LLM) 来分析其同行生成的输出。这种方法被称为“LLM-as-a-judge”,旨在增强人工智能生态系统的评估能力。然而,在评估诸如长篇事实验证、高级编程和数学问题解决等复杂任务时,挑战随之而来。
剑桥大学和苹果公司的创新解决方案
剑桥大学学术专家最近与苹果公司合作开展了一项研究,推出了一套旨在提升人工智能评估准确性的突破性系统。该创新框架在题为《大型语言模型的外部验证》的论文中进行了详细介绍,它整合了外部验证工具,旨在解决人类和人工智能注释者的局限性。
解决人类和人工智能评估的局限性
人类判断和人工智能评估都面临着固有的挑战。人类注释者经常受到偏见、时间限制和疲劳的影响,这些因素可能会导致他们的评估偏向于风格偏好而非事实准确性。相反,人工智能系统经常难以应对复杂任务的复杂性,导致评估的可靠性降低。
介绍评估代理
新开发的评估代理是一款功能强大的工具,能够自主判断在评估过程中是否需要部署外部验证工具。该代理遵循三个步骤:对领域进行初步评估、使用适当的工具以及得出最终结论。该系统的战略设计增强了其在各种任务中的评估能力。
工具如何工作
特定工具已集成到评估代理的框架中,以提高任务准确性:
- 事实核查工具:利用网络搜索来验证回复中提出的事实。
- 代码执行工具:利用 OpenAI 的代码解释器来验证编程输出。
- 数学检查器:专门用于确认数学方程式和计算的专用工具。
当外部工具无法提供准确评估的结果时,可以使用基准 LLM 注释器。这种方法可以最大限度地减少不必要的处理,同时保持简单任务的性能。
前景光明,未来整合
该框架的实施已显示出显著的增强,尤其是在长篇事实验证方面,使其与真实注释的一致性显著提升。在编码任务中,基于代理的策略显著提升了多个测试基准上的性能。在数学挑战方面,虽然观察到了改进,但与现有基准的总体一致性仍然较低,尤其是在56%左右。有趣的是,研究表明,在评估长篇回复时,代理的准确率超过了人类评估者。
展望未来,该框架的设计充分考虑了可扩展性,允许未来集成其他验证工具,以进一步完善 LLM 评估功能。作为其对创新与协作的承诺的一部分,Apple 计划在GitHub上以开源形式发布该框架的代码,尽管目前尚未开放。
发表回复