人工智能法官增强事实核查能力和编码技能

人工智能法官增强事实核查能力和编码技能
图片来自Pixabay

人工智能在语言模型评估中的兴起:一种新方法

在人工智能领域,研究人员越来越多地采用大型语言模型 (LLM) 来分析其同行生成的输出。这种方法被称为“LLM-as-a-judge”,旨在增强人工智能生态系统的评估能力。然而,在评估诸如长篇事实验证、高级编程和数学问题解决等复杂任务时,挑战随之而来。

剑桥大学和苹果公司的创新解决方案

剑桥大学学术专家最近与苹果公司合作开展了一项研究,推出了一套旨在提升人工智能评估准确性的突破性系统。该创新框架在题为《大型语言模型的外部验证》的论文中进行了详细介绍,它整合了外部验证工具,旨在解决人类和人工智能注释者的局限性。

解决人类和人工智能评估的局限性

人类判断和人工智能评估都面临着固有的挑战。人类注释者经常受到偏见、时间限制和疲劳的影响,这些因素可能会导致他们的评估偏向于风格偏好而非事实准确性。相反,人工智能系统经常难以应对复杂任务的复杂性,导致评估的可靠性降低。

介绍评估代理

新开发的评估代理是一款功能强大的工具,能够自主判断在评估过程中是否需要部署外部验证工具。该代理遵循三个步骤:对领域进行初步评估、使用适当的工具以及得出最终结论。该系统的战略设计增强了其在各种任务中的评估能力。

工具如何工作

特定工具已集成到评估代理的框架中,以提高任务准确性:

  • 事实核查工具:利用网络搜索来验证回复中提出的事实。
  • 代码执行工具:利用 OpenAI 的代码解释器来验证编程输出。
  • 数学检查器:专门用于确认数学方程式和计算的专用工具。

当外部工具无法提供准确评估的结果时,可以使用基准 LLM 注释器。这种方法可以最大限度地减少不必要的处理,同时保持简单任务的性能。

前景光明,未来整合

该框架的实施已显示出显著的增强,尤其是在长篇事实验证方面,使其与真实注释的一致性显著提升。在编码任务中,基于代理的策略显著提升了多个测试基准上的性能。在数学挑战方面,虽然观察到了改进,但与现有基准的总体一致性仍然较低,尤其是在56%左右。有趣的是,研究表明,在评估长篇回复时,代理的准确率超过了人类评估者。

展望未来,该框架的设计充分考虑了可扩展性,允许未来集成其他验证工具,以进一步完善 LLM 评估功能。作为其对创新与协作的承诺的一部分,Apple 计划在GitHub上以开源形式发布该框架的代码,尽管目前尚未开放。

来源和图片

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注