Google bringt Gemma 3n auf den Markt, ein innovatives KI-Modell für mobile Plattformen

Google bringt Gemma 3n auf den Markt, ein innovatives KI-Modell für mobile Plattformen

Wir stellen vor: Gemma 3n: Googles KI-Modell der nächsten Generation

Google hat Gemma 3n vorgestellt, eine revolutionäre Weiterentwicklung seiner offenen KI-Modelle. Die neue Version, die letzten Monat auf der Google I/O vorgestellt wurde, steht Entwicklern nun zur Implementierung auf ihrer lokalen Hardware zur Verfügung.

Für diejenigen, die mit der Gemma-Reihe nicht vertraut sind: Sie unterscheidet sich von Googles proprietären Gemini-Modellen. Gemma ist als Open Source konzipiert und ermöglicht Entwicklern das freie Herunterladen, Modifizieren und Innovieren, während Gemini eine geschlossene Plattform bleibt, die sich auf anspruchsvolle Aufgaben konzentriert.

Hauptmerkmale von Gemma 3n

Die neueste Version, Gemma 3n, stellt eine bedeutende Weiterentwicklung dar, da sie verschiedene Eingabetypen, darunter Bilder, Audio und Video, zur Generierung von Textausgaben unterstützt. Diese multimodale Funktion stellt einen deutlichen Unterschied zu früheren, ausschließlich textbasierten Modellen dar. Nachfolgend sind die wichtigsten Verbesserungen aufgeführt, die mit diesem Modell eingeführt wurden:

  • Multimodale Funktionalität: Gemma 3n integriert nahtlos Text-, Bild-, Audio- und Videoeingaben und verbessert so die Vielseitigkeit der Benutzerinteraktionen.
  • On-Device-Optimierung: Zwei auf Effizienz optimierte Modellvarianten, E2B und E4B, funktionieren effektiv auf Hardware mit minimalem Speicherbedarf. Ihre Parameteranzahl beträgt 5 Milliarden für E2B und 8 Milliarden für E4B, dennoch arbeiten sie mit einem Speicherbedarf, der dem herkömmlicher Modelle mit nur 2 GB (E2B) bzw.3 GB (E4B) RAM ähnelt.
  • Innovative Architektur: Der Kern von Gemma 3n verfügt über eine fortschrittliche Architektur namens MatFormer, die rechnerische Flexibilität bietet. Diese Struktur umfasst Per Layer Embeddings (PLE) für eine bessere Speichernutzung sowie neue Audio- und MobileNet-v5-Vision-Encoder, die speziell auf mobile Anwendungen zugeschnitten sind.
  • Überragende Qualität: Das Modell verbessert die Ausgabequalität, unterstützt mehrsprachige Interaktionen in 140 Sprachen für Text und 35 Sprachen für multimodale Aufgaben und bietet eine verbesserte Leistung in Mathematik, Codierung und logischem Denken.

Ein einzigartiger Aspekt der Effizienz von Gemma 3n liegt in seiner MatFormer-Architektur. Google vergleicht sie mit einer russischen Matrjoschka-Puppe, wobei größere Modelle kleinere, voll funktionsfähige Versionen umfassen, die sich an verschiedene Aufgaben anpassen.

Bei Leistungsbenchmarks erreichte die E4B-Variante insbesondere einen LMArena-Score von über 1300 und war damit das erste Modell unter 10 Milliarden Parametern, das diesen Meilenstein erreichte.Gemma 3n-Auftritt auf LMArena

Erweiterte Audio- und Videofunktionen

Gemma 3n bietet erweiterte Audiofunktionen, darunter Spracherkennung und Übersetzung direkt auf dem Gerät, unterstützt durch einen Encoder mit präziser Sprachverarbeitung. Der aktualisierte MobileNet-V5 Vision Encoder steigert die Videoverarbeitungsgeschwindigkeit deutlich und ermöglicht Echtzeitvideos mit bis zu 60 Bildern pro Sekunde auf Google Pixel-Geräten.

Erste Schritte mit Gemma 3n

Wenn Sie Gemma 3n erkunden möchten, sind die Modelle über Plattformen wie Hugging Face und Kaggle sowie in Google AI Studio leicht zugänglich, wo Sie direkt mit den Funktionen experimentieren können.

Umfassende Einzelheiten zu diesem Modell, einschließlich Anleitungen für Entwickler, finden Sie im offiziellen Ankündigungsbeitrag.

Quelle & Bilder

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert