
Google presenta DolphinGemma: un avance en la investigación sobre la comunicación con los delfines
Tras la introducción de Deep Research con tecnología de Gemini 2.5 Pro Experimental, Google ha lanzado DolphinGemma, un modelo de lenguaje extenso y de vanguardia. Esta innovadora herramienta de IA tiene como objetivo ayudar a los investigadores a examinar la comunicación de los delfines, con el objetivo final de decodificar sus vocalizaciones.
Esfuerzos de colaboración con el Proyecto Delfines Salvajes
En colaboración con investigadores de Georgia Tech y el Proyecto Delfines Salvajes (WDP), dirigido por la Dra. Denise Herzing, Google trabaja en este ambicioso proyecto. La misión del WDP se centra en monitorear y documentar el comportamiento, las estructuras sociales, los patrones de comunicación y los ecosistemas de los delfines salvajes, en particular el delfín moteado del Atlántico (Stenella frontalis), mediante métodos de investigación de campo no invasivos y a largo plazo.
Perspectivas a partir de los datos sobre el comportamiento de los delfines
A lo largo de años de investigación de campo, el WDP ha recopilado datos valiosos que correlacionan sonidos específicos de delfines con sus comportamientos. Entre los comportamientos más destacados se incluyen:
- Silbatos característicos, que sirven como identificadores únicos para que las madres y sus crías se reúnan
- “Graznidos” de pulsos explosivos, comúnmente registrados durante encuentros agresivos
- Haga clic en “zumbidos”, utilizados frecuentemente en situaciones de cortejo o al perseguir presas.
Utilizando IA avanzada para la comunicación con delfines
Google explica que analizar los intrincados patrones de comunicación de los delfines presenta desafíos significativos. Afortunadamente, el extenso conjunto de datos etiquetados del WDP representa una plataforma ideal para aplicaciones avanzadas de IA. DolphinGemma utiliza el innovador tokenizador SoundStream de Google, que traduce las complejas vocalizaciones de los delfines en unidades de audio más pequeñas y manejables.
Este enfoque optimizado opera con una arquitectura de IA especialmente diseñada que procesa estas secuencias de audio para su análisis. Con cerca de 400 millones de parámetros, DolphinGemma está optimizado para funcionar eficientemente, incluso en los dispositivos Pixel que los investigadores llevan durante el trabajo de campo.

El mecanismo detrás de DolphinGemma
DolphinGemma se distingue de los modelos de aprendizaje automático convencionales, ya que se centra exclusivamente en la entrada y salida de audio. En lugar de interpretar palabras o imágenes, procesa secuencias vocales de delfines, empleando metodologías inspiradas en la comprensión del habla humana por parte de grandes modelos lingüísticos. El modelo predice sonidos posteriores basándose en secuencias existentes.
La Dra. Denise Herzing establece un paralelismo con el concepto de autocompletar para los sonidos de los delfines, donde el modelo identifica patrones, estructuras y progresión en las vocalizaciones, de forma muy similar a como los modelos de texto predicen las siguientes palabras en las oraciones en función del contexto.
Construyendo un lenguaje común con CHAT
Antes de la llegada de DolphinGemma, los investigadores del WDP utilizaban CHAT (Telemetría de Aumento Auditivo para Cetáceos) para evaluar la viabilidad de la comunicación bidireccional con delfines. El objetivo de CHAT era crear un vocabulario más simple y compartido para la interacción, en lugar de descifrar toda la complejidad del lenguaje de los delfines.
Este sistema generó nuevos silbatos sintéticos vinculados a elementos específicos de interés para los delfines (como sargazo, pastos marinos e incluso bufandas coloridas) con la esperanza de que a través de la exposición repetida, los delfines comenzaran a imitar estos sonidos para «solicitar» los elementos.
Con la tecnología del Google Pixel 6, CHAT procesó eficientemente datos de audio de alta calidad en tiempo real sin necesidad de equipos personalizados, lo que agilizó las operaciones de investigación en entornos oceánicos. Para la próxima temporada de investigación, la transición al Pixel 9 mejorará aún más las capacidades, gracias a un hardware de audio mejorado que admite sofisticados modelos de aprendizaje profundo y reconocimiento de patrones simultáneamente.

El futuro de la investigación sobre mamíferos marinos
Google planea lanzar DolphinGemma como modelo abierto a finales de este verano, con el objetivo de dotar a investigadores de todo el mundo de herramientas para explorar sus propios conjuntos de datos acústicos. Esta iniciativa busca acelerar la identificación de patrones y mejorar nuestra comprensión colectiva de estas inteligentes criaturas marinas.
DolphinGemma es la última incorporación a la familia Gemma de modelos de lenguaje grandes y livianos de Google, que ahora incluye modelos de varios tamaños que van desde 1 mil millones a 27 mil millones de parámetros.
Deja una respuesta