骆驼戏剧：Meta 的“实验性”人工智能模型提升排名，引发对公平性、透明度和用户可访问性的担忧

上周末，Meta 发布了其 Llama 4 AI 的两款创新版本，一款名为 Scout 的紧凑型版本，以及一款名为 Maverick 的中型版本。该公司宣称，Maverick 在多项广泛使用的测试中超越了 ChatGPT-4o 和 Gemini 2.0 Flash。然而，这些说法背后似乎隐藏着更多秘密。

Meta 面临审查：关于 AI 模型性能的误导性声明引发争议

Maverick 上线后迅速在 LMArena 平台上排名第二。LMArena 是一个平台，用户可以根据 AI 回答的相关性和准确性对其进行评估和投票。然而，情况并非表面看起来那么简单。Maverick 的快速崛起引发了人们对其绩效指标完整性的讨论。

Meta 自豪地宣布了 Maverick 令人印象深刻的 1417 ELO 得分，仅次于 Gemini 2.5 Pro，领先于 GPT-40。虽然这凸显了 Meta 已经设计出了一个具有竞争力的 AI 模型，但接下来发生的事情却引起了科技界的关注。观察人士迅速指出，该模型的性能声明存在差异，最终 Meta 不得不承认：提交给 LMArena 评估的版本与消费者版本存在差异。

具体来说，据TechCrunch报道，Meta 提供了一个实验性的聊天变体，该变体经过微调，提升了对话功能。LMArena 对此回应强调，“Meta 对我们政策的解读与我们对模型提供商的期望不符”，并敦促 Meta 更清楚地说明“Llama-4-Maverick-03-26-Experimental”版本的使用情况，该版本是根据人类偏好定制的。

鉴于此事件，LMArena 已修改其排行榜政策，以提高未来排名的公平性和可靠性。随后，Meta 发言人就此情况发表了以下评论：

“我们现在已经发布了开源版本，并将观察开发人员如何根据自己的用例定制 Llama 4。”

虽然 Meta 从技术上来说遵守了规则，但其缺乏透明度引发了人们的担忧，担心有人会利用其模型的优化版和非公开版本来操纵排行榜排名。独立 AI 研究员 Simon Willison 指出：

“当《Llama 4》问世并位居第二时，我真的很惊讶——我后悔自己没有仔细阅读细则。”

“总的来说，这是一个非常令人困惑的版本……我们得到的模型分数对我来说完全没用。我甚至不能使用获得高分的模型。”

另一方面，有人猜测 Meta 的 AI 模型经过训练，可以在特定的测试场景中表现出色。然而，该公司生成 AI 副总裁 Ahman Al-Dahle 驳斥了这些说法，他表示：

“我们还听说我们在测试集上进行训练——但这根本不是事实。”

在这些讨论中，用户质疑为什么 Maverick AI 模型会在周日发布。马克·扎克伯格简单地回答道：“那时候它已经准备好了。” 考虑到 AI 领域的激烈竞争，Meta 花了相当长的时间才最终推出 Llama 4。随着事态的不断发展，请继续关注后续更新。

来源和图片

骆驼戏剧：Meta 的“实验性”人工智能模型提升排名，引发对公平性、透明度和用户可访问性的担忧

Meta 面临审查：关于 AI 模型性能的误导性声明引发争议

相关文章:

八款值得一玩的执法类电子游戏

特朗普新推出的“互惠”关税豁免预计不会对游戏显卡价格产生影响

发表回复取消回复

Meta 面临审查：关于 AI 模型性能的误导性声明引发争议

相关文章:

发表回复 取消回复

发表回复取消回复