Google dévoile DolphinGemma : un LLM innovant pour déchiffrer la communication des dauphins

Google dévoile DolphinGemma : un LLM innovant pour déchiffrer la communication des dauphins

Google dévoile DolphinGemma : une avancée dans la recherche sur la communication avec les dauphins

Suite au lancement de Deep Research, optimisé par Gemini 2.5 Pro Experimental, Google a lancé DolphinGemma, un modèle linguistique de pointe à grande échelle. Cet outil d’IA innovant vise à aider les chercheurs à étudier la communication des dauphins, avec pour objectif ultime de décoder leurs vocalisations.

Efforts de collaboration avec le Wild Dolphin Project

En collaboration avec des chercheurs de Georgia Tech et du Wild Dolphin Project (WDP), dirigé par le Dr Denise Herzing, Google travaille sur cet ambitieux projet. La mission du WDP est de surveiller et de documenter les comportements, les structures sociales, les modes de communication et les écosystèmes des dauphins sauvages, en étudiant plus particulièrement le dauphin tacheté de l’Atlantique (Stenella frontalis), grâce à des méthodes de recherche de terrain non invasives et à long terme.

Informations tirées des données sur le comportement des dauphins

Au fil des années de recherche sur le terrain, le WDP a accumulé des données précieuses qui établissent une corrélation entre les sons spécifiques des dauphins et leurs comportements. Parmi les comportements remarquables, on peut citer :

  • Sifflets de signature, qui servent d’identifiants uniques pour que les mères et les veaux se réunissent
  • Des « cris aigus » à impulsions en rafale, généralement enregistrés lors de rencontres agressives
  • Cliquez sur « bourdonnements », fréquemment utilisés dans les situations de parade nuptiale ou lors de la poursuite d’une proie

Utilisation de l’IA avancée pour la communication avec les dauphins

Google souligne que l’analyse des schémas de communication complexes des dauphins présente des défis considérables. Heureusement, le vaste ensemble de données étiquetées du WDP constitue une plateforme idéale pour les applications d’IA avancées. DolphinGemma utilise le tokenizer innovant SoundStream de Google, qui traduit les vocalisations complexes des dauphins en unités audio plus petites et plus faciles à gérer.

Cette approche simplifiée repose sur une architecture d’IA spécialement conçue pour traiter ces séquences audio à des fins d’analyse. Avec environ 400 millions de paramètres, DolphinGemma est optimisé pour fonctionner efficacement, même sur les appareils Pixel que les chercheurs utilisent sur le terrain.

Sifflements gauche et impulsions en rafale droite générés lors des premiers tests de DolphinGemma

Le mécanisme derrière DolphinGemma

DolphinGemma se distingue des modèles d’apprentissage automatique conventionnels par sa concentration sur les entrées et sorties audio. Au lieu d’interpréter des mots ou des images, il traite les séquences vocales des dauphins, en utilisant des méthodologies inspirées de la compréhension de la parole humaine par les grands modèles linguistiques. Le modèle prédit les sons suivants à partir des séquences existantes.

Le Dr Denise Herzing établit un parallèle avec le concept de saisie semi-automatique pour les sons des dauphins, où le modèle identifie les modèles, les structures et la progression des vocalisations, tout comme les modèles de texte prédisent les mots à venir dans les phrases en fonction du contexte.

Construire un langage commun avec CHAT

Avant l’avènement de DolphinGemma, les chercheurs du WDP utilisaient la technologie CHAT (Cetacean Hearing Augmentation Telemetry) pour étudier la faisabilité d’une communication bidirectionnelle avec les dauphins. CHAT visait à créer un vocabulaire d’interaction plus simple et partagé, plutôt qu’à déchiffrer toute la complexité du langage des dauphins.

Ce système a généré de nouveaux sifflements synthétiques liés à des éléments spécifiques intéressant les dauphins, tels que les sargasses, les herbiers marins et même des foulards colorés, dans l’espoir qu’à travers une exposition répétée, les dauphins commenceraient à imiter ces sons pour « demander » les objets.

Alimenté par le Google Pixel 6, CHAT traite efficacement des données audio de haute qualité en temps réel, sans équipement spécifique, simplifiant ainsi les opérations de recherche en haute mer. Pour la prochaine saison de recherche, la transition vers le Pixel 9 améliorera encore les capacités, grâce à un matériel audio amélioré prenant en charge simultanément des modèles sophistiqués d’apprentissage profond et la reconnaissance de formes.

Un Google Pixel 9 à l'intérieur du dernier matériel du système CHAT
Un Google Pixel 9 à l’intérieur du dernier matériel du système CHAT.

L’avenir de la recherche sur les mammifères marins

Google prévoit de lancer DolphinGemma en tant que modèle ouvert plus tard cet été, afin de doter les chercheurs du monde entier d’outils pour explorer leurs propres ensembles de données acoustiques. Cette initiative vise à accélérer l’identification de modèles et à améliorer notre compréhension collective de ces créatures marines intelligentes.

DolphinGemma est le dernier ajout à la famille Gemma de modèles de langage légers et volumineux de Google, qui comprend désormais des modèles de différentes tailles allant de 1 milliard à 27 milliards de paramètres.

Source et images

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *