
谷歌推出 DolphinGemma:推进海豚交流研究
继推出由 Gemini 2.5 Pro Experimental 提供支持的 Deep Research 之后,谷歌又推出了DolphinGemma,一款先进的大型语言模型。这款创新的 AI 工具旨在协助研究人员研究海豚的交流方式,最终目标是解码海豚的发声。
与野生海豚项目的合作
谷歌正与佐治亚理工学院的研究人员以及由丹尼斯·赫辛博士领导的野生海豚项目 (WDP)合作开展这项雄心勃勃的项目。WDP 的使命是通过非侵入性的长期实地研究方法,监测和记录野生海豚的行为、社会结构、交流模式和生态系统,特别是研究大西洋斑点海豚 (Stenella frontalis) 。
海豚行为数据的见解
经过多年的实地研究,WDP 积累了宝贵的数据,将特定的海豚声音与其行为关联起来。值得关注的行为包括:
- 标志性的口哨声,是母象和小象团聚的唯一标识
- 突发脉冲“尖叫声”,通常在激烈冲突中记录
- 轻声“嗡嗡”声,常用于求偶或追逐猎物时
利用先进的人工智能与海豚沟通
谷歌明确表示,分析海豚复杂的沟通模式是一项艰巨的挑战。幸运的是,WDP 的海量标记数据集为高级 AI 应用提供了一个理想的平台。DolphinGemma 采用了谷歌创新的 SoundStream 分词器,能够将复杂的海豚叫声转换成更小、更易于管理的音频单元。
这种精简的方法基于专门设计的AI架构,用于处理这些音频序列并进行分析。DolphinGemma拥有约4亿个参数,经过优化,即使在研究人员在野外工作期间携带的Pixel设备上也能高效运行。

DolphinGemma背后的机制
DolphinGemma 与传统的机器学习模型截然不同,它严格专注于音频输入和输出。它并非解读文字或图像,而是处理海豚的声音序列,其方法灵感源自大型语言模型理解人类语音的方式。该模型能够根据现有序列预测后续声音。
Denise Herzing 博士将其与海豚声音的自动完成概念进行了类比,其中模型识别发声的模式、结构和进展,就像文本模型根据上下文预测句子中即将出现的单词一样。
使用 CHAT 构建通用语言
在 DolphinGemma 问世之前,WDP 的研究人员利用 CHAT(鲸类听觉增强遥测技术)探索与海豚进行双向交流的可行性。CHAT 旨在创建一套更简洁、更通用的互动词汇,而非破译海豚语言的全部复杂性。
该系统生成了新的合成口哨声,这些口哨声与海豚感兴趣的特定物品(如马尾藻、海草,甚至是彩色围巾)相关联,希望通过反复接触,海豚会开始模仿这些声音来“请求”这些物品。
CHAT 由 Google Pixel 6 提供支持,能够高效实时处理高质量音频数据,无需定制设备,从而简化了开放海洋环境中的研究操作。在即将到来的研究季中,升级到 Pixel 9 将进一步增强其功能,这要归功于改进的音频硬件,该硬件可同时支持复杂的深度学习模型和模式识别。

海洋哺乳动物研究的未来
谷歌计划于今年夏末发布 DolphinGemma 开放模型,旨在为全球研究人员提供探索自身声学数据集的工具。该计划旨在加速模式识别,并增强我们对这些智慧海洋生物的集体理解。
DolphinGemma 是谷歌轻量级大型语言模型 Gemma 系列的最新成员,目前包含从 10 亿到 270 亿个参数的各种规模的模型。
发表回复 ▼