Google、モバイルプラットフォーム向けの革新的なAIモデル「Gemma 3n」を発表

Google、モバイルプラットフォーム向けの革新的なAIモデル「Gemma 3n」を発表

Gemma 3n の紹介: Google の次世代 AI モデル

Googleは、同社のオープンAIモデルシリーズにおける革新的な進化形であるGemma 3nを発表しました。先月のGoogle I/Oイベントで披露されたこの新バージョンは、開発者がローカルハードウェアに実装できる状態で公開されました。

Gemmaシリーズをご存じない方のためにご説明すると、これはGoogle独自のGeminiモデルとは異なります。Gemmaはオープンソースとして設計されており、開発者は自由にダウンロード、変更、そして革新を行うことができます。一方、Geminiは高負荷タスクに特化したクローズドプラットフォームです。

Gemma 3nの主な特徴

最新版のGemma 3nは、画像、音声、動画など、様々な入力タイプをサポートし、テキスト出力を生成することで、大きな進化を遂げました。このマルチモーダル機能は、従来のテキストベースのみのモデルからの大きな転換点です。以下は、このモデルで導入された注目すべき機能強化です。

  • マルチモーダル機能: Gemma 3n は、テキスト、画像、オーディオ、ビデオの入力をシームレスに統合し、ユーザー インタラクションの汎用性を高めます。
  • デバイス上での最適化:効率性を重視して最適化されたE2BとE4Bの2つのモデルは、最小限のメモリでハードウェア上で効率的に動作します。パラメータ数はE2Bで50億、E4Bで80億ですが、RAMはわずか2GB(E2B)と3GB(E4B)と、従来のモデルと同等のメモリフットプリントで動作します。
  • 革新的なアーキテクチャ: Gemma 3nのコアには、計算柔軟性を実現するMatFormerと呼ばれる高度なアーキテクチャが搭載されています。この構造には、メモリ使用効率を向上させるレイヤーごとの埋め込み(PLE)に加え、モバイルアプリケーション向けにカスタマイズされた新しいオーディオおよびMobileNet-v5ビジョンエンコーダが含まれています。
  • 優れた品質:このモデルは出力品質を強化し、テキストの場合は 140 言語、マルチモーダル タスクの場合は 35 言語にわたる多言語インタラクションをサポートするとともに、数学、コーディング、論理的推論のパフォーマンスも向上します。

Gemma 3n の効率性におけるユニークな点は、MatFormer アーキテクチャにあります。Google はこれをロシアのマトリョーシカ人形に例えており、大型のモデルの中に小型で完全に機能するバージョンを組み込むことで、様々なタスクに適応します。

パフォーマンスベンチマークでは、E4B バリアントは 1300 を超える LMArena スコアを達成し、100 億パラメータ未満のモデルとして初めてこのマイルストーンを達成しました。LMArenaでのGemma 3nのパフォーマンス

高度なオーディオおよびビジュアル機能

Gemma 3nは、デバイス上での音声テキスト変換や翻訳などの強化されたオーディオ機能を搭載し、高精度な音声処理が可能なエンコーダを搭載しています。アップデートされたMobileNet-V5ビジョンエンコーダはビデオ処理速度を大幅に向上させ、Google Pixelデバイスで最大60フレーム/秒のリアルタイムビデオ再生を可能にします。

Gemma 3nを使い始める

Gemma 3n を詳しく調べてみたい方は、Hugging Face や Kaggle などのプラットフォームのほか、Google AI Studioからモデルに簡単にアクセスでき、その機能を直接試すことができます。

開発者向けガイドを含むこのモデルに関する包括的な詳細については、公式発表投稿をご覧ください。

出典と画像

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です