Google dévoile Gemini 2.0 Flash avec sortie native d’image et d’audio

Présentation du modèle Flash Gemini 2.0 : la dernière innovation de Google en matière d’IA

Google est entré dans une nouvelle phase avec l’introduction de son modèle Gemini 2.0 Flash , qui marque une amélioration significative par rapport à son prédécesseur, Gemini 1.5 Pro. Ce modèle de pointe bénéficie non seulement de mesures de performance améliorées, mais double également la vitesse, ce qui en fait un outil révolutionnaire dans les applications d’IA.

Fonctionnalités et capacités améliorées

Le modèle Gemini 2.0 Flash apporte une multitude de fonctionnalités avancées qui améliorent ses fonctionnalités. Parmi ses améliorations notables, on trouve :

Sortie multimodale : le modèle prend en charge la génération native d’images en parallèle du texte et peut produire un son multilingue grâce à des fonctionnalités de synthèse vocale (TTS) orientables.
Entrées multimodales : il peut traiter différents types d’entrées, notamment des images, des vidéos et de l’audio, permettant une interaction plus riche.
Intégration d’outils natifs : les utilisateurs peuvent appeler de manière transparente des outils tels que Google Search et exécuter du code directement dans le modèle.

Accès des développeurs et prochaines versions

Les développeurs désireux d’explorer Gemini 2.0 Flash peuvent accéder à la version expérimentale dans AI Studio et Vertex AI dès aujourd’hui. De plus, la nouvelle API Multimodal Live facilite l’intégration en temps réel des entrées de streaming audio et vidéo, ainsi que la possibilité d’utiliser plusieurs outils simultanément.

Les consommateurs peuvent découvrir Gemini 2.0 Flash via les offres Gemini disponibles sur les plateformes Web de bureau et mobiles, avec des applications mobiles qui devraient être lancées prochainement. Google a annoncé que le déploiement complet de ce modèle aura lieu en janvier 2025.

Prototypes innovants : élargir l’horizon des possibilités

À l’occasion du lancement de Gemini 2.0 Flash, Google a présenté plusieurs prototypes qui explorent les capacités d’agentivité de ce nouveau système d’IA :

Projet Astra : cette initiative permet des conversations multilingues et peut fonctionner dans des langues mixtes. Elle dispose notamment d’une mémoire de session impressionnante pouvant aller jusqu’à 10 minutes, avec la possibilité d’exploiter des outils tels que Google Search, Lens et Maps.
Projet Mariner : cet agent IA est spécialisé dans l’interprétation et le raisonnement à partir des informations affichées sur le navigateur d’un utilisateur pour exécuter efficacement des tâches. Google indique que Project Mariner a atteint un taux de réussite de pointe de 83,5 % dans une configuration à agent unique.
Jules : un agent d’IA axé sur le code qui s’intègre aux flux de travail GitHub, Jules aide les développeurs en diagnostiquant les problèmes, en planifiant des solutions et en les exécutant directement dans l’environnement de codage.

L’avenir de l’IA avec Gemini 2.0 Flash

Avec ses remarquables capacités multimodales et ses intégrations d’outils natives, Gemini 2.0 Flash représente une avancée significative, offrant une myriade de possibilités aux développeurs et aux utilisateurs finaux. Les avancées de ce modèle pourraient redéfinir la façon dont nous interagissons avec l’IA, en fusionnant fonctionnalité et créativité.

Source et images