Google wprowadza Gemma 3n, innowacyjny model AI dla platform mobilnych

Przedstawiamy Gemma 3n: model sztucznej inteligencji nowej generacji firmy Google

Google zaprezentowało Gemma 3n, rewolucyjny postęp w serii otwartych modeli AI. Ta nowa wersja, zaprezentowana podczas wydarzenia Google I/O w zeszłym miesiącu, jest teraz w pełni dostępna dla programistów do wdrożenia na ich lokalnym sprzęcie.

Dla tych, którzy nie znają linii Gemma, jest ona odmienna od zastrzeżonych modeli Gemini firmy Google. Gemma jest zaprojektowana jako open-source, umożliwiając programistom swobodne pobieranie, modyfikowanie i wprowadzanie innowacji, podczas gdy Gemini pozostaje zamkniętą platformą skupioną na zadaniach wymagających dużej mocy obliczeniowej.

Główne cechy Gemma 3n

Najnowsza iteracja, Gemma 3n, oznacza znaczącą ewolucję, ponieważ obsługuje różne typy danych wejściowych, w tym obrazy, audio i wideo, aby generować dane wyjściowe w postaci tekstu. Ta multimodalna możliwość stanowi znaczącą zmianę w stosunku do poprzednich modeli wyłącznie opartych na tekście. Poniżej przedstawiono wyróżniające się ulepszenia wprowadzone w tym modelu:

Funkcjonalność multimodalna: Gemma 3n płynnie integruje dane tekstowe, graficzne, audio i wideo, zwiększając wszechstronność interakcji użytkowników.
Optymalizacja na urządzeniu: Dwie wersje modelu, E2B i E4B, zoptymalizowane pod kątem wydajności, mogą działać skutecznie na sprzęcie z minimalną pamięcią. Ich liczba parametrów wynosi 5 miliardów dla E2B i 8 miliardów dla E4B, ale działają z wykorzystaniem pamięci podobnej do tradycyjnych modeli z zaledwie 2 GB (E2B) i 3 GB (E4B) pamięci RAM.
Innowacyjna architektura: Rdzeń Gemma 3n charakteryzuje się zaawansowaną architekturą znaną jako MatFormer, która oferuje elastyczność obliczeniową. Ta struktura obejmuje Per Layer Embeddings (PLE) dla lepszego wykorzystania pamięci wraz z nowymi koderami audio i wizji MobileNet-v5 dostosowanymi do aplikacji mobilnych.
Najwyższa jakość: Model ten podnosi jakość wyników, wspierając interakcje wielojęzyczne w 140 językach w przypadku tekstu i 35 w przypadku zadań multimodalnych, a także poprawiając wydajność w zakresie matematyki, kodowania i rozumowania logicznego.

Unikalny aspekt wydajności Gemma 3n leży w architekturze MatFormer. Google porównuje ją do rosyjskiej lalki Matrioszki, przy czym większe modele obejmują mniejsze, w pełni funkcjonalne wersje, aby dostosować się do różnych zadań.

W testach wydajności wariant E4B osiągnął wynik LMArena przekraczający 1300, stając się pierwszym modelem o parametrach poniżej 10 miliardów, który osiągnął ten kamień milowy. Wydajność Gemma 3n na LMArena

Zaawansowane możliwości audiowizualne

Gemma 3n wprowadza ulepszone funkcje audio, w tym zamianę mowy na tekst i tłumaczenie na urządzeniu, obsługiwane przez koder zdolny do precyzyjnego przetwarzania mowy. Zaktualizowany koder wizji MobileNet-V5 znacznie zwiększa prędkość przetwarzania wideo, umożliwiając wideo w czasie rzeczywistym z prędkością do 60 klatek na sekundę na urządzeniach Google Pixel.

Rozpocznij pracę z Gemma 3n

Jeśli chcesz poznać bliżej Gemma 3n, modele są łatwo dostępne na platformach takich jak Hugging Face i Kaggle, a także w Google AI Studio, gdzie możesz bezpośrednio eksperymentować z jego możliwościami.

Szczegółowe informacje na temat tego modelu, w tym przewodniki dla deweloperów, można znaleźć w oficjalnym ogłoszeniu.

Źródło i obrazy