Google推出 Gemma 3n，面向行動平台的創新 AI 模型

介紹 Gemma 3n：Google 的下一代 AI 模型

谷歌發布了 Gemma 3n，這是其一系列開放式 AI 模型的革命性進步。該新版本在上個月的 Google I/O 大會上亮相，現已全面開放給開發者在本地硬體上實現。

對於不熟悉 Gemma 系列的人來說，它與Google專有的 Gemini 型號截然不同。 Gemma 的設計理念是開源，允許開發者自由下載、修改和創新；而 Gemini 則是一個專注於高效能任務的封閉平台。

最新版本的 Gemma 3n 標誌著重大的進化，因為它支援多種輸入類型，包括圖像、音頻和視頻，並產生文字輸出。這種多模態功能與先前純文字模型相比，帶來了顯著的轉變。以下是此模型引入的突出增強功能：

多模式功能： Gemma 3n 無縫整合文字、圖像、音訊和視訊輸入，增強了使用者互動的多功能性。
設備上最佳化：此模型的兩個變體 E2B 和 E4B 均針對效率進行了最佳化，能夠在佔用極少記憶體的硬體上高效運作。 E2B 的參數數量為 50 億，E4B 的參數數量為 80 億，但運行時的記憶體佔用卻與僅佔用 2GB RAM（E2B）和 3GB RAM（E4B）的傳統模型相似。
創新架構： Gemma 3n 的核心採用名為 MatFormer 的先進架構，可提供運算彈性。該結構包含逐層嵌入 (PLE)，可提高記憶體利用率，並配備專為行動應用量身定制的全新音訊和 MobileNet-v5 視覺編碼器。
卓越品質：該模型提高了輸出質量，支援 140 種語言的文本多語言交互和 35 種語言的多模式任務多語言交互，同時提高了數學、編碼和邏輯推理方面的性能。

Gemma 3n 的高效性源自於其 MatFormer 架構。谷歌將其比作俄羅斯娃娃，較大的模型內部包裹著更小、功能齊全的版本，以適應各種任務。

在性能基準測試中，E4B 變體的 LMArena 得分顯著超過 1300，這標誌著它成為第一個在 100 億參數以下達到這一里程碑的模型。 Gemma 3n 在 LMArena 上的表演

Gemma 3n 引入了增強的音訊功能，包括裝置上的語音轉文字和翻譯功能，並由能夠精確處理語音的編碼器提供支援。升級後的 MobileNet-V5 視覺編碼器顯著提升了視訊處理速度，可在 Google Pixel 裝置上以高達每秒 60 幀的速度即時播放影片。

如果您渴望探索 Gemma 3n，可以透過 Hugging Face 和 Kaggle 等平台輕鬆存取模型，也可以在Google AI Studio中直接試驗其功能。

有關此模型的全面詳細資訊（包括開發人員指南），請查看官方公告貼文。