利用微软的 UI-Evol 增强 AI 代理的可靠性
微软亚洲研究院的研究人员发布了一项名为UI-Evol的突破性组件,这令人振奋。这项创新旨在提升计算机人工智能代理的准确性和可靠性。人工智能代理是指能够通过与操作系统交互自主执行任务的算法。尽管这些人工智能模型功能强大,但其精度一直不尽如人意。
知识与行动差距的挑战
计算机使用的AI代理经常从互联网获取信息,以学习如何与用户界面交互。然而,鉴于用户界面不断演变的特性,这些代理往往难以将理论知识应用于现实世界的用户界面交互。这种脱节被称为知识-行动鸿沟,这是一个显著的障碍,会降低它们的效能。
微软最近发布的一项研究凸显了这个问题:即使人工智能代理接收到的指令正确率高达 90%,其任务成功完成率也仅为 41%。此外,这些代理的行为还表现出不可预测性,经常执行相同的操作却得到不同的结果。这种不一致性使得针对性的解决方案势在必行。
隆重推出 UI-Evol
UI-Evol 是一款功能强大的组件,可无缝集成到 AI 代理的工作流程中。它利用来自实际用户界面的实时信息,持续改进和更新 AI 的界面知识,从而提升代理的可靠性和准确性。
UI-Evol 的工作原理
UI-Evol 采用简单直接的两步法:
- 回溯:这种方法涉及仔细记录 AI 代理在完成任务期间采取的精确操作,例如点击、击键和决策。
- 评论:录制完成后,该方法会将智能体的行为与既定的外部指令进行比较。如果发现差异,系统会相应地调整其知识库,确保其反映软件环境中切实有效的策略。
经证实有效
为了验证 UI-Evol 的有效性,我们使用OSWorld基准测试,在以性能卓越的计算机应用智能体之一而闻名的Agent S2上进行了测试。使用基于GPT-4o和OpenAI-o3等领先的大型语言模型训练的智能体进行的实验也取得了令人瞩目的成果:任务成功率显著提高,一致性增强,从而降低了智能体的行为变异性。这一进展使得人工智能智能体更加可靠。
对未来的影响
随着 UI-Evol 的推出,微软有望显著提升人工智能代理在办公自动化和虚拟助手任务中的能力。这一改进不仅巩固了微软在人工智能研究领域的领先地位,也为未来人工智能代理能够在各种应用中更高效、更可靠地运行铺平了道路。
发表回复