삼성의 소형 AI 모델, ARC-AGI 퍼즐 풀이에서 Gemini 2.5 Pro와 같은 대형 언어 모델 능가

삼성의 소형 AI 모델, ARC-AGI 퍼즐 풀이에서 Gemini 2.5 Pro와 같은 대형 언어 모델 능가

삼성의 카메라 기술은 현재 획기적인 발전이 부족할 수 있지만, 인공지능(AI) 분야에서의 발전은 주목할 만합니다.삼성의 최신 AI 이니셔티브는 다른 대규모 언어 모델(LLM)보다 훨씬 뛰어난 성능을 보이는 모델을 특징으로 하며, 그중 일부는 크기가 약 1만 배에 달합니다.

삼성의 혁신적인 소형 재귀 모델 소개

TRM: 7M 매개변수와 자체 수정 및 최소 매개변수와 같은 기능을 자세히 설명하는 작은 네트워크 다이어그램입니다.
이미지 출처
  1. TRM(Tiny Recursive Model)으로 알려진 이 모델은 놀라울 정도로 컴팩트하여 대규모 LLM에서 발견되는 수십억 개의 매개변수와 비교했을 때 불과 700만 개의 매개변수로 구성됩니다.
  2. TRM은 그 결과를 바탕으로 후속 단계를 안내하고, 효과적으로 자체 개선 피드백 메커니즘을 구축합니다.
  3. 각 출력에 반복적 추론을 활용함으로써 일반적인 메모리나 계산 오버헤드를 발생시키지 않고도 더 깊은 신경 구조를 에뮬레이션할 수 있습니다.
  4. 각 재귀적 사이클을 통해 모델은 예측이나 결과의 정확도를 높입니다.

삼성의 전략은 초안을 꼼꼼하게 수정하는 과정과 유사합니다.이 모델은 반복적으로 오류를 파악하고 수정하는데, 이는 단 하나의 실수만으로도 논리적인 문제에 직면하여 종종 실패하는 기존 LLM(로컬리듬)에 비해 눈에 띄는 발전입니다.사고의 연쇄 추론이 이러한 모델에 도움이 되기는 하지만, 압박 속에서는 그 효과가 미약합니다.

핵심 요점: 단순함을 받아들이세요

삼성은 초기에 모델의 계층을 늘려 복잡성을 높이려고 시도했습니다.그러나 이러한 접근 방식은 과적합(overfitting)을 초래하고 일반화를 저해했습니다.흥미롭게도, 계층 수를 줄이고 재귀 반복 횟수를 늘리는 방향으로 전환하자 TRM의 성능이 향상되었습니다.

성과 결과

  1. Sudoku-Extreme에서는 87.4%의 정확도를 달성했는데, 이는 기존 계층적 추론 모델의 정확도인 55%에 비해 높은 수치입니다.
  2. Maze-Hard 퍼즐에서 85%의 정확도를 확보했습니다.
  3. ARC-AGI-1 챌린지에서 45%의 정확도를 달성했습니다.
  4. ARC-AGI-2 작업에서 8%의 정확도를 얻었습니다.

놀랍게도 삼성의 TRM은 DeepSeek R1, Google의 Gemini 2.5 Pro, OpenAI의 o3-mini와 같은 대형 LLM과 경쟁할 뿐만 아니라 많은 경우 그 성능을 능가합니다.그러면서도 매개변수 수의 극히 일부만 활용합니다.

출처 및 이미지

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다