Gemini 2.5 AI 模型在關鍵基準測試中超越競爭對手

Gemini 2.5 AI 模型在關鍵基準測試中超越競爭對手

在最近的 Google I/O 開發者大會上,Google發布了一項重要更新,增強了 Gemini API 的功能,尤其針對電腦互動功能進行了最佳化。 Gemini 2.5 電腦使用功能的發布,代表著人工智慧驅動的使用者介面 (UI) 導航和互動模型的重大進步。谷歌聲稱,這項新模型在網頁和行動控制任務的各項基準測試中均超越了競​​爭對手。

了解 Gemini API 計算機使用工具

電腦使用工具的工程工作流程圍繞著無縫互動模型構建,其中涉及多個關鍵步驟:

  • 開發人員首先提交一個使用者請求,其中包含介面截圖和最近採取的操作的日誌。
  • 此外,開發人員可以指示是否希望從可用的 UI 操作的廣泛清單中排除某些功能或包含任何自訂功能。
  • 接收此輸入後,模型會處理資訊並產生相應的操作,可能涉及點擊或打字。
  • 當模型對其選擇缺乏信心時,它可能會提示最終用戶進行確認。例如,在進行與金融交易相關的操作之前,它會尋求使用者驗證。
  • 然後透過客戶端程式碼執行操作,例如按下按鈕或提示使用者確認。
  • 任務執行後,當前圖形使用者介面 (GUI) 的新螢幕截圖以及活動 URL 將發送到電腦使用模型,從而重置該過程。
  • 這些步驟重複進行,直到定義的任務成功完成。

性能洞察和可訪問性

雖然Gemini 2.5 電腦使用模型針對網頁瀏覽器進行了微調,以實現最佳效能,但Google表示,該模型在行動 UI 操作中也表現出色。然而,值得注意的是,該模型仍處於開發階段,尚未針對桌面作業系統層級的控制進行微調,谷歌在最近的溝通中強調了這一點。

Gemini 2.5 電腦使用

面向開發人員的可用性

Gemini 2.5 電腦使用模型已發佈公開預覽版,開發者可透過Google AI StudioVertex AI等平台上的 Gemini API 進行存取。這項賦能開發者的舉措旨在透過先進的 AI 功能增強用戶互動並簡化任務。

如需更詳細的見解和視覺資源,您可以在此處瀏覽原始公告。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *