Google lance Gemma 3n, un modèle d’IA innovant pour les plateformes mobiles

Google lance Gemma 3n, un modèle d’IA innovant pour les plateformes mobiles

Présentation de Gemma 3n : le modèle d’IA de nouvelle génération de Google

Google a dévoilé Gemma 3n, une avancée révolutionnaire dans sa gamme de modèles d’IA ouverts. Cette nouvelle version, présentée lors de l’événement Google I/O du mois dernier, est désormais entièrement disponible pour les développeurs et peut être implémentée sur leur matériel local.

Pour ceux qui ne connaissent pas la gamme Gemma, elle se distingue des modèles Gemini propriétaires de Google. Gemma est conçue pour être open source, permettant aux développeurs de télécharger, de modifier et d’innover librement, tandis que Gemini reste une plateforme fermée axée sur les tâches à haute puissance.

Principales caractéristiques de Gemma 3n

La dernière itération, Gemma 3n, marque une évolution significative car elle prend en charge différents types d’entrées, notamment les images, l’audio et la vidéo, pour générer des sorties texte. Cette capacité multimodale représente une avancée notable par rapport aux modèles précédents, exclusivement textuels. Voici les principales améliorations apportées par ce modèle :

  • Fonctionnalité multimodale : Gemma 3n intègre de manière transparente les entrées de texte, d’image, d’audio et de vidéo, améliorant ainsi la polyvalence des interactions utilisateur.
  • Optimisation sur l’appareil : Deux variantes du modèle, E2B et E4B, optimisées pour l’efficacité, peuvent fonctionner efficacement sur du matériel disposant d’une mémoire minimale. Leurs paramètres s’élèvent à 5 milliards pour E2B et 8 milliards pour E4B, mais leur empreinte mémoire est similaire à celle des modèles traditionnels, avec seulement 2 Go (E2B) et 3 Go (E4B) de RAM.
  • Architecture innovante : Le cœur de Gemma 3n repose sur une architecture avancée appelée MatFormer, qui offre une grande flexibilité de calcul. Cette structure intègre des intégrations par couche (PLE) pour une meilleure utilisation de la mémoire, ainsi que de nouveaux encodeurs audio et de vision MobileNet-v5 adaptés aux applications mobiles.
  • Qualité supérieure : le modèle améliore la qualité de sortie, prenant en charge les interactions multilingues dans 140 langues pour le texte et 35 pour les tâches multimodales, ainsi que des performances améliorées en mathématiques, en codage et en raisonnement logique.

L’un des aspects uniques de l’efficacité de Gemma 3n réside dans son architecture MatFormer. Google la compare à une poupée russe Matriochka, dont les modèles plus grands englobent des versions plus petites et entièrement fonctionnelles, s’adaptant à diverses tâches.

Lors des tests de performance, la variante E4B a notamment obtenu un score LMArena supérieur à 1300, ce qui en fait le premier modèle sous 10 milliards de paramètres à atteindre ce jalon.Performance de Gemma 3n sur LMArena

Capacités audio et visuelles avancées

Gemma 3n introduit des fonctionnalités audio améliorées, notamment la conversion de la parole en texte et la traduction intégrées à l’appareil, prises en charge par un encodeur capable d’un traitement vocal précis. L’encodeur de vision MobileNet-V5 mis à jour améliore considérablement la vitesse de traitement vidéo, permettant des vidéos en temps réel jusqu’à 60 images par seconde sur les appareils Google Pixel.

Démarrer avec Gemma 3n

Si vous avez hâte d’explorer Gemma 3n, les modèles sont facilement accessibles via des plateformes comme Hugging Face et Kaggle, ainsi que dans Google AI Studio où vous pouvez expérimenter directement ses capacités.

Pour plus de détails sur ce modèle, y compris des guides pour les développeurs, consultez l’ annonce officielle.

Source et images

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *