駱駝戲劇:Meta 的「實驗性」人工智慧模型提升排名,引發對公平性、透明度和用戶可訪問性的擔憂

駱駝戲劇:Meta 的「實驗性」人工智慧模型提升排名,引發對公平性、透明度和用戶可訪問性的擔憂

上週末,Meta 發布了 Llama 4 AI 的兩個創新版本,推出了名為 Scout 的緊湊型版本和名為 Maverick 的中型版本。該公司宣稱,Maverick 在多項廣泛使用的評估中超越了 ChatGPT-4o 和 Gemini 2.0 Flash。然而,這些斷言背後似乎還有更多隱情。

Meta 面臨審查:關於 AI 模型性能的誤導性聲明引發爭議

推出後,Maverick 迅速在 LMArena 上獲得了第二名,該平台用戶可以根據相關性和準確性對 AI 回應進行評估和投票。然而,情況並不像表面看起來那麼簡單。 Maverick 的快速崛起引發了人們對其績效指標完整性的討論。

Meta 自豪地宣布 Maverick 的 ELO 得分高達 1417,僅次於 Gemini 2.5 Pro,領先 GPT-40。雖然這凸顯了 Meta 已經設計出具有競爭力的人工智慧模型,但接下來發生的事情卻引起了科技界的關注。觀察家很快指出了該模型效能聲明中的差異,導致 Meta 承認:提交給 LMArena 評估的版本與消費者版本有所不同。

具體來說,根據TechCrunch報道,Meta 提供了一種實驗性的聊天變體,該變體經過微調,可以提高對話能力。對此,LMArena 強調,“Meta 對我們政策的解讀與我們對模型提供者的期望不符”,並敦促 Meta 更清楚地說明針對人類偏好定制的“Llama-4-Maverick-03-26-Experimental”版本的使用情況。

有鑑於此事件,LMArena 已修改其排行榜政策,以提高未來排名的公平性和可靠性。隨後,Meta 發言人針對此事發表瞭如下評論:

“我們現在已經發布了開源版本,並將觀察開發人員如何根據自己的用例自訂 Llama 4。”

雖然 Meta 在技術上遵守了規則,但缺乏透明度引發了人們對透過使用其模型的優化和非公開變體來操縱排行榜排名的潛在風險的擔憂。獨立人工智慧研究員 Simon Willison 表示:

“當《Llama 4》問世並位居第二時,我真的很驚訝——我後悔自己沒有仔細閱讀細則。”

“總的來說,這是一個非常令人困惑的版本……我們得到的模型分數對我來說完全沒用。我什至不能使用獲得高分的模型。”

另一方面,有猜測認為 Meta 的 AI 模型經過訓練可以在特定的測試場景中表現出色。然而,該公司生成人工智慧副總裁 Ahman Al-Dahle 駁斥了這些說法,他表示:

“我們還聽說我們在測試集上進行訓練——但這根本不是事實。”

在這些討論中,用戶質疑為什麼 Maverick AI 模型在周日發布。馬克·祖克柏簡單地回答:「那時它已經準備好了。」Meta 花了相當長的時間才推出 Llama 4,尤其是考慮到人工智慧領域的激烈競爭。隨著事態的不斷發展,請繼續關注進一步的更新。

來源和圖片

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *