三星紧凑型 AI 模型在解决 ARC-AGI 难题方面超越 Gemini 2.5 Pro 等大型语言模型

三星紧凑型 AI 模型在解决 ARC-AGI 难题方面超越 Gemini 2.5 Pro 等大型语言模型

虽然三星的相机技术目前可能缺乏重大突破,但其在人工智能 (AI) 方面的进步值得关注。该公司最新的 AI 计划推出了一个模型,其性能显著优于其他大型语言模型 (LLM),其中一些模型的规模约为其 10, 000 倍。

三星创新微型递归模型介绍

TRM:一个微型网络图,详细说明了 7M 参数以及自我校正和最小参数等功能。
图片来源
  1. 该模型被称为微型递归模型 (TRM),非常紧凑,仅包含 700 万个参数,而大型 LLM 则包含数十亿个参数。
  2. TRM 利用其输出来指导其后续步骤,有效地创建自我改进的反馈机制。
  3. 通过对每个输出进行迭代推理,它可以模拟更深的神经结构,而不会产生典型的内存或计算开销。
  4. 通过每次递归循环,模型提高了其预测或结果的准确性。

三星的策略类似于修改书面草稿的细致过程;该模型会反复识别和纠正错误——这比传统的法学硕士(LLM)课程有了显著的改进。传统的法学硕士课程在面临逻辑挑战时,只要出现一个错误,就会陷入困境。虽然思路链式推理对这些模型有所辅助,但在压力之下,其有效性仍然脆弱。

关键要点:拥抱简单

最初,三星尝试通过增加模型层数来提升模型复杂度;然而,这种方法导致了过拟合,并阻碍了泛化。有趣的是,减少层数并增加递归迭代次数,反而提升了 TRM 的性能。

绩效结果

  1. 在 Sudoku-Extreme 上实现了 87.4% 的准确率,而传统的分层推理模型的准确率仅为 55%。
  2. 确保迷宫难题的准确率达到 85%。
  3. 在 ARC-AGI-1 挑战中达到了 45% 的准确率。
  4. 在 ARC-AGI-2 任务上获得了 8% 的准确率。

值得注意的是,三星的 TRM 不仅可以与 DeepSeek R1、谷歌的 Gemini 2.5 Pro 和 OpenAI 的 o3-mini 等更大的 LLM 相媲美,而且在许多情况下甚至超过了它们的性能,同时只使用了它们参数数量的一小部分。

来源和图片

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注