谷歌推出 DolphinGemma：破译海豚交流的创新法学硕士课程

谷歌推出 DolphinGemma：推进海豚交流研究

继推出由 Gemini 2.5 Pro Experimental 提供支持的 Deep Research 之后，谷歌又推出了DolphinGemma，一款先进的大型语言模型。这款创新的 AI 工具旨在协助研究人员研究海豚的交流方式，最终目标是解码海豚的发声。

谷歌正与佐治亚理工学院的研究人员以及由丹尼斯·赫辛博士领导的野生海豚项目 (WDP)合作开展这项雄心勃勃的项目。WDP 的使命是通过非侵入性的长期实地研究方法，监测和记录野生海豚的行为、社会结构、交流模式和生态系统，特别是研究大西洋斑点海豚 (Stenella frontalis) 。

经过多年的实地研究，WDP 积累了宝贵的数据，将特定的海豚声音与其行为关联起来。值得关注的行为包括：

标志性的口哨声，是母象和小象团聚的唯一标识

突发脉冲“尖叫声”，通常在激烈冲突中记录

轻声“嗡嗡”声，常用于求偶或追逐猎物时

谷歌明确表示，分析海豚复杂的沟通模式是一项艰巨的挑战。幸运的是，WDP 的海量标记数据集为高级 AI 应用提供了一个理想的平台。DolphinGemma 采用了谷歌创新的 SoundStream 分词器，能够将复杂的海豚叫声转换成更小、更易于管理的音频单元。

这种精简的方法基于专门设计的AI架构，用于处理这些音频序列并进行分析。DolphinGemma拥有约4亿个参数，经过优化，即使在研究人员在野外工作期间携带的Pixel设备上也能高效运行。

DolphinGemma 与传统的机器学习模型截然不同，它严格专注于音频输入和输出。它并非解读文字或图像，而是处理海豚的声音序列，其方法灵感源自大型语言模型理解人类语音的方式。该模型能够根据现有序列预测后续声音。

Denise Herzing 博士将其与海豚声音的自动完成概念进行了类比，其中模型识别发声的模式、结构和进展，就像文本模型根据上下文预测句子中即将出现的单词一样。

在 DolphinGemma 问世之前，WDP 的研究人员利用 CHAT（鲸类听觉增强遥测技术）探索与海豚进行双向交流的可行性。CHAT 旨在创建一套更简洁、更通用的互动词汇，而非破译海豚语言的全部复杂性。

该系统生成了新的合成口哨声，这些口哨声与海豚感兴趣的特定物品（如马尾藻、海草，甚至是彩色围巾）相关联，希望通过反复接触，海豚会开始模仿这些声音来“请求”这些物品。

CHAT 由 Google Pixel 6 提供支持，能够高效实时处理高质量音频数据，无需定制设备，从而简化了开放海洋环境中的研究操作。在即将到来的研究季中，升级到 Pixel 9 将进一步增强其功能，这要归功于改进的音频硬件，该硬件可同时支持复杂的深度学习模型和模式识别。

谷歌计划于今年夏末发布 DolphinGemma 开放模型，旨在为全球研究人员提供探索自身声学数据集的工具。该计划旨在加速模式识别，并增强我们对这些智慧海洋生物的集体理解。

DolphinGemma 是谷歌轻量级大型语言模型 Gemma 系列的最新成员，目前包含从 10 亿到 270 亿个参数的各种规模的模型。