
在最近的 Google I/O 開發者大會上,Google發布了一項重要更新,增強了 Gemini API 的功能,尤其針對電腦互動功能進行了最佳化。 Gemini 2.5 電腦使用功能的發布,代表著人工智慧驅動的使用者介面 (UI) 導航和互動模型的重大進步。谷歌聲稱,這項新模型在網頁和行動控制任務的各項基準測試中均超越了競爭對手。
了解 Gemini API 計算機使用工具
電腦使用工具的工程工作流程圍繞著無縫互動模型構建,其中涉及多個關鍵步驟:
- 開發人員首先提交一個使用者請求,其中包含介面截圖和最近採取的操作的日誌。
- 此外,開發人員可以指示是否希望從可用的 UI 操作的廣泛清單中排除某些功能或包含任何自訂功能。
- 接收此輸入後,模型會處理資訊並產生相應的操作,可能涉及點擊或打字。
- 當模型對其選擇缺乏信心時,它可能會提示最終用戶進行確認。例如,在進行與金融交易相關的操作之前,它會尋求使用者驗證。
- 然後透過客戶端程式碼執行操作,例如按下按鈕或提示使用者確認。
- 任務執行後,當前圖形使用者介面 (GUI) 的新螢幕截圖以及活動 URL 將發送到電腦使用模型,從而重置該過程。
- 這些步驟重複進行,直到定義的任務成功完成。
性能洞察和可訪問性
雖然Gemini 2.5 電腦使用模型針對網頁瀏覽器進行了微調,以實現最佳效能,但Google表示,該模型在行動 UI 操作中也表現出色。然而,值得注意的是,該模型仍處於開發階段,尚未針對桌面作業系統層級的控制進行微調,谷歌在最近的溝通中強調了這一點。

面向開發人員的可用性
Gemini 2.5 電腦使用模型已發佈公開預覽版,開發者可透過Google AI Studio和Vertex AI等平台上的 Gemini API 進行存取。這項賦能開發者的舉措旨在透過先進的 AI 功能增強用戶互動並簡化任務。
如需更詳細的見解和視覺資源,您可以在此處瀏覽原始公告。
發佈留言