
Kluczowe innowacje zaprezentowane na konferencji Google I/O 2025
Podczas wyczekiwanego wydarzenia Google I/O 2025, Google zaprezentowało szereg przełomowych narzędzi sztucznej inteligencji, podkreślając wydanie Gemini Flash 2.5, które jest teraz dostępne dla wszystkich użytkowników. Ponadto, wprowadzili Gemma 3n, mały model językowy (LLM) zaprojektowany specjalnie do obsługi urządzeń lokalnych.
Rewolucyjna technologia stojąca za Gemma 3n
Cechą wyróżniającą Gemma 3n jest implementacja Per-Layer Embeddings (PLE), innowacyjnego rozwiązania firmy Google DeepMind. Technologia ta nie tylko zmniejsza wykorzystanie pamięci, ale także znacznie zwiększa wydajność. Przy surowej liczbie parametrów wynoszącej 5 miliardów i 8 miliardów, Gemma 3n osiąga narzut pamięci podobny do modeli z zaledwie 2 miliardami i 4 miliardami parametrów. Według Google, obie konfiguracje wymagają odpowiednio zaledwie 2 GB i 3 GB pamięci.
Ulepszone funkcje prędkości i jakości
Oprócz kompaktowej pamięci Gemma 3n wykorzystuje zaawansowane metodologie, w tym współdzielenie KVC i kwantyzację aktywacji, co prowadzi do 1, 5-krotnie szybszego tempa reakcji na urządzeniach mobilnych w porównaniu do poprzednika, Gemmę 3 4B. Ponadto, jej unikalna funkcja mix’n’match umożliwia jej budowanie dynamicznych podmodeli, które dostosowują reakcje do konkretnych potrzeb użytkowników.
Lokalna egzekucja dla zwiększonej prywatności i funkcjonalności
Istotną zaletą Gemma 3n jest możliwość działania poprzez lokalne wykonywanie, co zapewnia, że całe przetwarzanie odbywa się na urządzeniu użytkownika. Ta funkcja gwarantuje, że dane nie są przesyłane na serwery, zwiększając prywatność i umożliwiając działanie bez połączenia internetowego — nieoceniony atut dla użytkowników, którzy wymagają niezawodności w scenariuszach offline.
Zdolność multimodalna i znajomość języka
Gemma 3n została zaprojektowana tak, aby wyróżniać się w przypadku multimodalnych danych wejściowych, sprawnie przetwarzając dźwięk, tekst i obrazy. Jej ulepszone możliwości rozumienia wideo umożliwiają jej obsługę złożonych zadań, takich jak transkrypcje i tłumaczenia w różnych modalnościach, oferując użytkownikom bezproblemowe doświadczenie w interakcji z różnymi typami treści.
Ponadto model wykazał wyraźną poprawę w obsłudze języków innych niż angielski, szczególnie wykazując zwiększoną wydajność w języku japońskim, niemieckim, koreańskim, hiszpańskim i francuskim. Metryki wydajności wskazują na silne wyniki w testach porównawczych wielojęzycznych, osiągając imponujące 50, 1% w WMT24++.
Pierwsze kroki z Gemma 3n
Możesz zacząć korzystać z Gemma 3n bezpośrednio z przeglądarki w Google AI Studio, bez konieczności instalacji. Dla deweloperów zainteresowanych lokalną integracją Google udostępnia zasoby za pośrednictwem Google AI Edge. Ta platforma oferuje niezbędne narzędzia i biblioteki, które teraz udostępniają użytkownikom zarówno możliwości przetwarzania tekstu, jak i obrazu, a w przyszłości spodziewane są dalsze udoskonalenia.
Dodaj komentarz