
上周末,Meta 发布了其 Llama 4 AI 的两款创新版本,一款名为 Scout 的紧凑型版本,以及一款名为 Maverick 的中型版本。该公司宣称,Maverick 在多项广泛使用的测试中超越了 ChatGPT-4o 和 Gemini 2.0 Flash。然而,这些说法背后似乎隐藏着更多秘密。
Meta 面临审查:关于 AI 模型性能的误导性声明引发争议
Maverick 上线后迅速在 LMArena 平台上排名第二。LMArena 是一个平台,用户可以根据 AI 回答的相关性和准确性对其进行评估和投票。然而,情况并非表面看起来那么简单。Maverick 的快速崛起引发了人们对其绩效指标完整性的讨论。
Meta 自豪地宣布了 Maverick 令人印象深刻的 1417 ELO 得分,仅次于 Gemini 2.5 Pro,领先于 GPT-40。虽然这凸显了 Meta 已经设计出了一个具有竞争力的 AI 模型,但接下来发生的事情却引起了科技界的关注。观察人士迅速指出,该模型的性能声明存在差异,最终 Meta 不得不承认:提交给 LMArena 评估的版本与消费者版本存在差异。
具体来说,据TechCrunch报道,Meta 提供了一个实验性的聊天变体,该变体经过微调,提升了对话功能。LMArena 对此回应强调,“Meta 对我们政策的解读与我们对模型提供商的期望不符”,并敦促 Meta 更清楚地说明“Llama-4-Maverick-03-26-Experimental”版本的使用情况,该版本是根据人类偏好定制的。
鉴于此事件,LMArena 已修改其排行榜政策,以提高未来排名的公平性和可靠性。随后,Meta 发言人就此情况发表了以下评论:
“我们现在已经发布了开源版本,并将观察开发人员如何根据自己的用例定制 Llama 4。”
虽然 Meta 从技术上来说遵守了规则,但其缺乏透明度引发了人们的担忧,担心有人会利用其模型的优化版和非公开版本来操纵排行榜排名。独立 AI 研究员 Simon Willison 指出:
“当《Llama 4》问世并位居第二时,我真的很惊讶——我后悔自己没有仔细阅读细则。”
“总的来说,这是一个非常令人困惑的版本……我们得到的模型分数对我来说完全没用。我甚至不能使用获得高分的模型。”
另一方面,有人猜测 Meta 的 AI 模型经过训练,可以在特定的测试场景中表现出色。然而,该公司生成 AI 副总裁 Ahman Al-Dahle 驳斥了这些说法,他表示:
“我们还听说我们在测试集上进行训练——但这根本不是事实。”
在这些讨论中,用户质疑为什么 Maverick AI 模型会在周日发布。马克·扎克伯格简单地回答道:“那时候它已经准备好了。” 考虑到 AI 领域的激烈竞争,Meta 花了相当长的时间才最终推出 Llama 4。随着事态的不断发展,请继续关注后续更新。
发表回复