三星緊湊型 AI 模型在解決 ARC-AGI 難題方面超越 Gemini 2.5 Pro 等大型語言模型

三星緊湊型 AI 模型在解決 ARC-AGI 難題方面超越 Gemini 2.5 Pro 等大型語言模型

雖然三星的相機技術目前可能缺乏重大突破,但其在人工智慧 (AI) 方面的進步值得關注。該公司最新的 AI 計劃推出了一個模型,其性能顯著優於其他大型語言模型 (LLM),其中一些模型的規模約為其 10, 000 倍。

三星創新微型遞歸模型介紹

TRM:一個微型網路圖,詳細說明了 7M 參數以及自我校正和最小參數等功能。
圖片來源
  1. 該模型被稱為微型遞歸模型 (TRM),非常緊湊,僅包含 700 萬個參數,而大型 LLM 則包含數十億個參數。
  2. TRM 利用其輸出來指導其後續步驟,有效地創建自我改進的回饋機制。
  3. 透過對每個輸出進行迭代推理,它可以模擬更深的神經結構,而不會產生典型的記憶體或計算開銷。
  4. 透過每次遞歸循環,模型提高了其預測或結果的準確性。

三星的策略類似於修改書面草稿的細緻過程;該模型會反覆識別和糾正錯誤——這比傳統的法學碩士(LLM)課程有了顯著的改進。傳統的法學碩士課程在面臨邏輯挑戰時,只要出現一個錯誤,就會陷入困境。雖然思路鍊式推理對這些模型有所輔助,但在壓力之下,其有效性仍然脆弱。

關鍵要點:擁抱簡單

最初,三星嘗試透過增加模型層數來提升模型複雜度;然而,這種方法導致了過度擬合,並阻礙了泛化。有趣的是,減少層數並增加遞歸迭代次數,反而提升了 TRM 的效能。

績效結果

  1. 在 Sudoku-Extreme 上實現了 87.4% 的準確率,而傳統的分層推理模型的準確率僅為 55%。
  2. 確保迷宮難題的準確率達到 85%。
  3. 在 ARC-AGI-1 挑戰中達到了 45% 的準確率。
  4. 在 ARC-AGI-2 任務上獲得了 8% 的準確率。

值得注意的是,三星的 TRM 不僅可以與 DeepSeek R1、Google的 Gemini 2.5 Pro 和 OpenAI 的 o3-mini 等更大的 LLM 相媲美,而且在許多情況下甚至超過了它們的性能,同時只使用了它們參數數量的一小部分。

來源和圖片

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *