谷歌的新 Gemini-Exp-1114 模型撼動了人工智慧基準測試格局

Chatbot Arena 已成為致力於眾包 AI 基準測試的著名開放平台。過去兩年，OpenAI 的模型一直佔據主導地位，在各種 AI 評估中始終名列前茅。雖然 Google 的 Gemini 和 Anthropic 的 Claude 模型在某些類別中顯示出令人印象深刻的結果，但 OpenAI 在該領域基本上保持著無與倫比的存在。

最近，Chatbot Arena推出了 Google 的一個實驗模型，稱為 Gemini-Exp-1114。這項新功能經過了嚴格的測試，在過去一周收到了超過 6,000 名社區投票，與 OpenAI 的最新模型 ChatGPT-4o-latest（截至 2024 年 9 月 3 日）並列第一。 Gemini模型的本次迭代得分有了顯著提升，從1301上升到1344，整體性能甚至超過了OpenAI的o1-preview模型。

Gemini-Exp-1114 的主要成就

根據Chatbot Arena的數據，Gemini-Exp-1114目前在Vision排行榜上處於領先地位，並且在以下類別中也取得了第一名的排名：

數學
創意寫作
更長的查詢
遵循指令
多回合互動
硬提示

在編碼領域，這個新模型坐穩了第三的位置；然而，它在帶有風格控制的硬提示中顯示出令人印象深刻的性能。就上下文而言，OpenAI 的 o1-preview 模型在編碼效率和風格控制指標方面繼續領先。分析勝率熱圖，我們發現 Gemini-Exp-1114 對 GPT-4o-latest 的勝率達到 50%，對 o1-preview 的勝率達到 56%，對 Claude-3.5-Sonnet 的勝率達到 62%。

最近的增強功能和效能指標

今年 9 月，Google 推出了 Gemini 1.5 系列，展示了一些增強功能，例如 MMLU-Pro 分數提高了約 7%，MATH 和 HiddenMath 基準顯著提高了 20%。新模型也反映了視覺和程式碼相關用例的 2-7% 增強。值得注意的是，回應的整體有用性得到了增強，谷歌強調新模型往往會提供更簡潔的答案。這些更新後的模型的預設輸出長度現在比其前身縮短了約 5-20%。

對於有興趣探索 Gemini-Exp-1114 模型的結果或嘗試它的人，可以在此處存取詳細資訊。我們鼓勵開發人員在 Google AI Studio 中測試這個尖端模型，並計劃透過 API 提供支援。

來源和圖片

谷歌最新的Gemini AI模型超越了OpenAI的GPT-4o技術

谷歌的新 Gemini-Exp-1114 模型撼動了人工智慧基準測試格局

Gemini-Exp-1114 的主要成就

最近的增強功能和效能指標

相關文章:

《Ara：歷史不為人知》的重大更新增強了經濟管理，引入了 Mod 支援等

谷歌即將推出一次性且有限使用的電子郵件別名

發佈留言取消回覆

谷歌的新 Gemini-Exp-1114 模型撼動了人工智慧基準測試格局

Gemini-Exp-1114 的主要成就

最近的增強功能和效能指標

相關文章:

發佈留言 取消回覆

發佈留言取消回覆