
在最近的 Google I/O 开发者大会上,谷歌发布了一项重要更新,增强了 Gemini API 的功能,尤其针对计算机交互功能进行了优化。Gemini 2.5 计算机使用功能的发布,代表着人工智能驱动的用户界面 (UI) 导航和交互模型的重大进步。谷歌声称,这一新模型在网页和移动控制任务的各项基准测试中均超越了竞争对手。
了解 Gemini API 计算机使用工具
计算机使用工具的工程工作流程围绕无缝交互模型构建,其中涉及多个关键步骤:
- 开发人员首先提交一个用户请求,其中包含界面截图和最近采取的操作的日志。
- 此外,开发人员可以指示是否希望从可用的 UI 操作的广泛列表中排除某些功能或包含任何自定义功能。
- 接收到此输入后,模型会处理信息并生成相应的操作,可能涉及点击或打字。
- 当模型对其选择缺乏信心时,它可能会提示最终用户进行确认。例如,在进行与金融交易相关的操作之前,它会寻求用户验证。
- 然后通过客户端代码执行操作,例如按下按钮或提示用户确认。
- 任务执行后,当前图形用户界面 (GUI) 的新屏幕截图以及活动 URL 将发送到计算机使用模型,从而重置该过程。
- 这些步骤重复进行,直到定义的任务成功完成。
性能洞察和可访问性
虽然Gemini 2.5 计算机使用模型针对网页浏览器进行了微调,以实现最佳性能,但谷歌表示,该模型在移动 UI 操作中也表现出色。然而,值得注意的是,该模型仍处于开发阶段,尚未针对桌面操作系统级别的控制进行微调,谷歌在最近的沟通中强调了这一点。

面向开发人员的可用性
Gemini 2.5 计算机使用模型已发布公开预览版,开发者可通过Google AI Studio和Vertex AI等平台上的 Gemini API 进行访问。这项赋能开发者的举措旨在通过先进的 AI 功能增强用户交互并简化任务。
如需更详细的见解和视觉资源,您可以在此处浏览原始公告。
发表回复