L’année 2024 a profondément remodelé le paysage technologique, notamment chez Google, qui a dévoilé une série d’innovations en matière d’IA sous la bannière Gemini. Cette initiative met en avant le chatbot conversationnel aux côtés de plusieurs modèles d’IA fondamentaux.
Tout au long de l’année, Google a présenté de nombreux produits et améliorations dans le domaine de l’IA générative. Outre les points forts de ces nouvelles fonctionnalités Gemini, il convient d’explorer les différents produits que le géant de la technologie a retirés en 2024, ainsi que la liste de souhaits attendue des fonctionnalités Instagram.
Remarque : la liste suivante met principalement en évidence les principales fonctionnalités de Gemini publiées en 2024, mais n’englobe pas tous les développements.
Du barde au gémeaux : la révolution du rebranding
L’une des principales transformations de cette année a été le changement de nom de son chatbot Bard en Gemini, en alignant la convention de dénomination sur ses modèles préexistants. Parallèlement à cette transition, l’entreprise technologique a déployé le modèle Gemini 1.0 Pro et a rendu le chatbot accessible dans plus de 40 langues dans 230 pays.
Un ingénieur de Google a expliqué le symbolisme du nom Gemini, en le reliant au signe du zodiaque connu pour sa dualité, qui met en parallèle la capacité de Gemini à traiter différents types de données. De plus, le nom rend hommage au projet Gemini de la NASA, une initiative d’exploration précoce de la Lune.
Lancement des applications mobiles et du modèle d’abonnement
En février, Google a lancé l’application Gemini pour Android, supplantant ainsi Google Assistant comme assistant vocal par défaut. Alors que les utilisateurs d’Android ont adopté le nouveau chatbot, les utilisateurs d’iOS ont pu y accéder via l’application Google.
Le même mois a marqué l’introduction du service d’abonnement payant appelé Gemini Advanced, donnant aux utilisateurs l’accès aux modèles les plus avancés, notamment Gemini Ultra 1.0, 1.5 Pro et des versions expérimentales comme Gemini-Exp-1206.
De plus, des fonctionnalités telles que « Aidez-moi à écrire » sont désormais disponibles sur les appareils Chromebook Plus, offrant un bouton Gemini pratique sur l’étagère des applications de l’écran d’accueil.
Intégration de l’IA dans Google Maps
En mars, Google a amélioré l’utilité du chatbot Gemini en intégrant la prise en charge de Google Maps. Les utilisateurs peuvent désormais émettre des commandes de navigation directement via le chatbot.
Par exemple, un utilisateur peut dire « Naviguez-moi vers [X] », ce qui invite Gemini à fournir des informations telles que la distance à parcourir, la durée prévue et un lien vers Google Maps, qui lancera la navigation peu de temps après.
Présentation de Vids : un nouvel outil de création de vidéos
En avril, Google a lancé Vids, un outil optimisé par Gemini qui vise à simplifier la création de vidéos à des fins de formation, de marketing et autres. Grâce à une interface de type chronologie, les utilisateurs peuvent facilement assembler des ressources vidéo à partir de Google Drive, enregistrer des voix off ou filmer directement depuis l’application.
Les fonctionnalités de collaboration permettent aux utilisateurs de gérer qui peut modifier, commenter ou afficher leurs projets. Notez que Google Vids est un module complémentaire payant de la suite Workspace.
Intégration de la musique YouTube
En mai, une nouvelle extension YouTube Music a été introduite, permettant aux utilisateurs de Gemini d’interagir avec YouTube Music pour découvrir des morceaux, écouter des stations de radio et explorer de nouveaux artistes et listes de lecture.
Développement continu : nouveaux modèles Gemini
L’année 2024 a également été marquée par diverses mises à niveau des modèles Gemini. Le lancement de Gemini 1.5 Flash en mai a fourni un LLM léger optimisé pour des tâches telles que la synthèse, les interactions par chat, le sous-titrage d’images et de vidéos et l’extraction de données.
D’autres améliorations ont été apportées, notamment une version plus compacte appelée Gemini 1.5 Flash-8B et un nouveau modèle Gemini 1.5 Pro offrant des performances améliorées pour les tâches de codage. En décembre, Google a dévoilé le modèle expérimental Gemini 2.0 Flash, qui prend en charge les images générées en mode natif et les capacités audio multilingues.
Demandez à l’assistant Photos
Lors de la Google I/O 2024, l’assistant Ask Photos a été dévoilé. Cet assistant numérique, propulsé par Gemini, est conçu pour parcourir votre galerie, générer des légendes personnalisées et créer des instantanés de vos voyages.
Expansion dans l’éducation
En mai, Google a étendu les fonctionnalités de Gemini au domaine éducatif en lançant deux nouveaux modules complémentaires : Gemini Education et Gemini Education Premium. Ces fonctionnalités incluent des capacités de prise de notes pilotées par l’IA et des mesures de protection des données améliorées.
Intégration de Gemini dans les applications Workspace
Poursuivant sa mission d’intégration de l’IA sur ses plateformes, Google a dévoilé en juin les panneaux latéraux Gemini au sein des applications Workspace. Ces panneaux personnalisent les fonctionnalités en fonction du contexte de l’application. Par exemple, Gemini peut résumer les fils de discussion dans Gmail ou aider à créer des diapositives de présentation dans Google Slides.
En novembre, le panneau latéral Gemini a été ajouté à Google Chat, permettant aux utilisateurs de résumer efficacement les conversations.
Présentation de Gemini Live
Lors de l’événement Pixel en août, Google a lancé Gemini Live, créant une expérience conversationnelle dynamique avec le chatbot IA. Les utilisateurs peuvent engager un dialogue naturel et reprendre les conversations même lorsque l’application s’exécute en arrière-plan ou lorsque leurs appareils sont verrouillés.
Initialement intégrée au plan Gemini Advanced, cette fonctionnalité a ensuite été mise à la disposition de tous les utilisateurs via l’application Gemini sur Android et iOS, avec la prise en charge de plus de 40 langues ajoutée peu de temps après.
Créer des gemmes personnalisées
Avec l’introduction de Custom Gems, les utilisateurs peuvent désormais personnaliser leurs propres chatbots Gemini pour des tâches spécifiques, qu’il s’agisse de réfléchir à des idées pour des événements ou de servir de tuteurs virtuels.
Cette fonctionnalité premium est accessible aux utilisateurs des forfaits Gemini Advanced, Business et Enterprise dans plus de 150 pays. Les utilisateurs peuvent explorer des gemmes prédéfinies ou en créer de nouvelles directement via le gestionnaire de gemmes.
Lancement d’Imagen 3 et de Whisk Generator
En octobre, Google a lancé Imagen 3, son modèle de génération de texte en image de premier ordre, qui s’intègre parfaitement à l’écosystème Gemini et prend en charge toutes les langues. Ce modèle améliore la compréhension des instructions utilisateur, permettant la création de paysages photoréalistes, de peintures artistiques et de scènes imaginatives, avec des améliorations ultérieures possibles.
En plus d’Imagen 3, Google a dévoilé l’outil Whisk, permettant de générer des images à partir d’images existantes, élargissant encore son offre créative.
Collaborations de Gemini avec Opera et Snapchat
Google s’est associé à Opera pour intégrer les fonctionnalités de Gemini dans son IA intégrée au navigateur Aria, améliorant ainsi l’expérience de navigation avec des capacités avancées de génération de texte en voix et d’images.
De plus, Snapchat a collaboré avec Google pour améliorer son chatbot My AI, ce qui a permis de proposer une expérience multimodale plus sophistiquée. Des rapports indiquent que cette intégration a multiplié par 2,5 l’engagement des utilisateurs sur la plateforme aux États-Unis.
Recherche approfondie : un nouvel assistant de recherche IA
Pour ceux qui se consacrent à des recherches approfondies, le nouvel assistant Deep Research vise à simplifier le processus. Cet outil facilite l’analyse approfondie des documents, les résumés et l’extraction d’informations essentielles à partir de grands ensembles de données.
Nous introduisons également une nouvelle fonctionnalité d’agent appelée Deep Research dans Gemini Advanced, un assistant de recherche qui peut approfondir des sujets complexes et créer des rapports pour vous avec des liens vers les sources pertinentes. pic.twitter.com/imYd4tktEG
– Sundar Pichai (@sundarpichai) 11 décembre 2024
Deep Research est disponible dans le cadre de Gemini Advanced, prenant en charge plus de 45 langues dans plus de 150 pays.
Naviguer avec le langage naturel dans Maps
Une amélioration récente de Google Maps permet désormais aux utilisateurs d’effectuer des recherches en langage naturel. Par exemple, en saisissant « choses à faire avec des amis le soir », les utilisateurs obtiennent des avis résumés sur les lieux suggérés, offrant ainsi une expérience de navigation plus intuitive.
Diffusion en continu depuis Spotify
Avec les dernières mises à jour de Gemini, la compatibilité avec Spotify a été introduite en même temps que YouTube Music. Les utilisateurs peuvent désormais demander des chansons, parcourir des listes de lecture et rechercher de la musique à l’aide des paroles via l’interface Gemini sur Android, à condition qu’ils disposent d’un compte Spotify Premium.
Controverses autour des Gémeaux
Malgré ses avancées, Gemini de Google a fait l’objet de controverses. En février, la fonction de génération d’images a été critiquée pour son côté biaisé, ce qui a conduit à une suspension temporaire du service pendant que Google répondait aux préoccupations.
D’autres rapports ont fait état d’incidents de résumés PDF non autorisés, même lorsque des paramètres spécifiques étaient désactivés. En outre, les conclusions ont révélé qu’une équipe de sous-traitants avait aidé à évaluer les résultats de Gemini par rapport à des modèles concurrents, soulevant des questions sur les similitudes de réponses.
Laisser un commentaire