Google Gemini 2.5 Deep Think 模型優於 OpenAI O3 和 Gork 4

Google Gemini 2.5 Deep Think 模型優於 OpenAI O3 和 Gork 4
雙子座 2.5 深度思考

Google發布 Gemini 2.5 Deep Think:AI 能力的一次飛躍

谷歌今天發布重要公告,宣布其 Gemini 2.5 Deep Think 模型已部署於 Gemini 應用程式中,該應用程式僅供 Google AI Ultra 訂閱用戶使用。這款尖端模型在多個重要基準測試中的表現均超越了包括 OpenAI 的 o3 和 xAI 的 Gork 4 在內的知名競爭對手。

Gemini 2.5 Pro 的進化版

Gemini 2.5 的旅程始於今年 5 月的 Google I/O 2025 大會,當時 Gemini 2.5 Pro Deep Think 模型首次亮相。這款創新模型運用先進的研究方法,在提供回應之前分析各種假設。今天的更新帶來了增強的功能,這些功能得益於早期測試人員的寶貴意見以及近期研究的進展。 Google 表示,與 I/O 大會上展示的初始版本相比,這些更新標誌著重大飛躍。

銅牌表演

此外,Google透露,最新的 Deep Think 模型是最近在 2025 年國際數學奧運 (IMO) 比賽中獲得金牌的版本的變體。然而,為了確保更廣泛的適用性,該模型已針對更快的響應速度進行了優化,儘管在 2025 年 IMO 基準測試中獲得了銅牌級別的評級。

出色的基準測試結果

正如隨附的基準測試所強調的那樣,Gemini 2.5 Deep Think 在 LiveCodeBench V6、Humanity’s Last Exam、IMO 2025 和 AIME 2025 等評估中表現出色,展示了其強大的功能。

在 Gemini 應用程式中存取 Deep Think

Google AI Ultra 的訂閱用戶現在可以透過 Gemini 應用程式使用 Deep Think,但每日提示次數有限制。使用 Gemini 2.5 Pro 型號時,使用者可在提示列中選擇「Deep Think」功能。此外,Google表示 Deep Think 將與程式碼執行和Google搜尋等工具無縫整合。未來幾週,Google計劃透過 Gemini API 向部分值得信賴的開發者推出帶有工具和不帶工具的 Deep Think 版本。

競爭格局

現在的焦點轉移到 OpenAI 即將推出的 GPT-5 模型上,這引出了一個關鍵問題:在即將到來的基準評估中,它是否會超越 Gemini 2.5 Deep Think?

來源和圖片

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *