구글, 모바일 플랫폼용 혁신적 AI 모델 ‘젬마 3n’ 출시

Gemma 3n 소개: Google의 차세대 AI 모델

구글은 자사의 개방형 AI 모델 시리즈에 혁신적인 발전을 가져온 Gemma 3n을 공개했습니다.지난달 구글 I/O 행사에서 선보인 이 새로운 버전은 이제 개발자들이 로컬 하드웨어에서 구현할 수 있도록 완벽하게 출시되었습니다.

Gemma 제품군에 익숙하지 않은 분들을 위해 설명드리자면, Gemma는 Google의 자체 Gemini 모델과는 다릅니다. Gemma는 오픈 소스로 설계되어 개발자가 자유롭게 다운로드, 수정 및 혁신할 수 있는 반면, Gemini는 고사양 작업에 중점을 둔 폐쇄형 플랫폼입니다.

Gemma 3n의 주요 기능

최신 버전인 Gemma 3n은 이미지, 오디오, 비디오 등 다양한 입력 유형을 지원하여 텍스트 출력을 생성한다는 점에서 상당한 발전을 이루었습니다.이러한 멀티모달 기능은 기존의 텍스트 기반 모델과는 확연히 다른 모습을 보여줍니다.이 모델에 도입된 주요 개선 사항은 다음과 같습니다.

다중 모달 기능: Gemma 3n은 텍스트, 이미지, 오디오, 비디오 입력을 완벽하게 통합하여 사용자 상호작용의 다양성을 향상시킵니다.
온디바이스 최적화: 효율성을 위해 최적화된 E2B와 E4B 두 가지 모델이 하드웨어에서 최소한의 메모리로 효과적으로 작동할 수 있습니다.매개변수 수는 E2B가 50억 개, E4B가 80억 개에 달하지만, RAM 용량이 2GB(E2B)와 3GB(E4B)에 불과한 기존 모델과 유사한 메모리 사용량으로 작동합니다.
혁신적인 아키텍처: Gemma 3n의 핵심은 연산 유연성을 제공하는 MatFormer라는 고급 아키텍처를 특징으로 합니다.이 구조에는 메모리 사용량 향상을 위한 Per Layer Embedding(PLE)과 모바일 애플리케이션에 최적화된 새로운 오디오 및 MobileNet-v5 비전 인코더가 포함되어 있습니다.
뛰어난 품질: 이 모델은 텍스트의 경우 140개 언어, 다중 모드 작업의 경우 35개 언어에 걸쳐 다국어 상호작용을 지원하여 출력 품질을 향상시키고, 수학, 코딩, 논리적 추론 성능도 개선했습니다.

Gemma 3n의 효율성에서 독특한 측면은 MatFormer 아키텍처에 있습니다.구글은 이를 러시아 마트료시카 인형에 비유하는데, 더 큰 모델들이 다양한 작업에 맞춰 조정되는 더 작고 완전한 기능을 갖춘 버전들을 포괄하는 구조입니다.

성능 벤치마크에서 E4B 변형 모델은 1, 300점을 넘는 LMArena 점수를 달성하여 100억 개의 매개변수를 가진 모델 중 최초로 이러한 이정표를 달성했습니다. LMArena에서 열린 Gemma 3n 공연

고급 오디오 및 비주얼 기능

Gemma 3n은 정밀한 음성 처리가 가능한 인코더를 통해 기기 내 음성-텍스트 변환 및 번역을 포함한 향상된 오디오 기능을 제공합니다.업데이트된 MobileNet-V5 비전 인코더는 비디오 처리 속도를 크게 향상시켜 Google Pixel 기기에서 최대 60fps의 실시간 비디오를 지원합니다.