谷歌的新 Gemini-Exp-1114 模型撼動了人工智慧基準測試格局
Chatbot Arena 已成為致力於眾包 AI 基準測試的著名開放平台。過去兩年,OpenAI 的模型一直佔據主導地位,在各種 AI 評估中始終名列前茅。雖然 Google 的 Gemini 和 Anthropic 的 Claude 模型在某些類別中顯示出令人印象深刻的結果,但 OpenAI 在該領域基本上保持著無與倫比的存在。
最近,Chatbot Arena推出了 Google 的一個實驗模型,稱為 Gemini-Exp-1114。這項新功能經過了嚴格的測試,在過去一周收到了超過 6,000 名社區投票,與 OpenAI 的最新模型 ChatGPT-4o-latest(截至 2024 年 9 月 3 日)並列第一。 Gemini模型的本次迭代得分有了顯著提升,從1301上升到1344,整體性能甚至超過了OpenAI的o1-preview模型。
Gemini-Exp-1114 的主要成就
根據Chatbot Arena的數據,Gemini-Exp-1114目前在Vision排行榜上處於領先地位,並且在以下類別中也取得了第一名的排名:
- 數學
- 創意寫作
- 更長的查詢
- 遵循指令
- 多回合互動
- 硬提示
在編碼領域,這個新模型坐穩了第三的位置;然而,它在帶有風格控制的硬提示中顯示出令人印象深刻的性能。就上下文而言,OpenAI 的 o1-preview 模型在編碼效率和風格控制指標方面繼續領先。分析勝率熱圖,我們發現 Gemini-Exp-1114 對 GPT-4o-latest 的勝率達到 50%,對 o1-preview 的勝率達到 56%,對 Claude-3.5-Sonnet 的勝率達到 62%。
最近的增強功能和效能指標
今年 9 月,Google 推出了 Gemini 1.5 系列,展示了一些增強功能,例如 MMLU-Pro 分數提高了約 7%,MATH 和 HiddenMath 基準顯著提高了 20%。新模型也反映了視覺和程式碼相關用例的 2-7% 增強。值得注意的是,回應的整體有用性得到了增強,谷歌強調新模型往往會提供更簡潔的答案。這些更新後的模型的預設輸出長度現在比其前身縮短了約 5-20%。
對於有興趣探索 Gemini-Exp-1114 模型的結果或嘗試它的人,可以在此處存取詳細資訊。我們鼓勵開發人員在 Google AI Studio 中測試這個尖端模型,並計劃透過 API 提供支援。
發佈留言