Google推出 DolphinGemma:破解海豚交流的創新法學碩士課程

Google推出 DolphinGemma:破解海豚交流的創新法學碩士課程

Google推出 DolphinGemma:推進海豚交流研究

繼推出由 Gemini 2.5 Pro Experimental 提供支援的深度研究之後,Google又推出了尖端的大型語言模型DolphinGemma 。這種創新的人工智慧工具旨在幫助研究人員研究海豚的交流,最終目標是解碼它們的聲音。

與野生海豚計畫的合作

谷歌正在與佐治亞理工學院和丹尼斯·赫爾辛博士領導的野生海豚計畫 (WDP)的研究人員合作進行這項雄心勃勃的計畫。 WDP 的使命是透過非侵入性、長期的實地研究方法監測和記錄野生海豚的行為、社會結構、溝通模式和生態系統,特別是研究大西洋斑點海豚(Stenella frontalis) 。

海豚行為數據的見解

經過多年的實地研究,WDP 累積了寶貴的數據,將特定的海豚聲音與其行為關聯起來。值得注意的行為包括:

  • 標誌性的口哨聲,是母像和小象團聚的唯一標識
  • 突發脈衝“尖叫聲”,通常在激烈衝突中記錄
  • 輕聲「嗡嗡」聲,常用於求偶或追逐獵物時

利用先進的人工智慧與海豚溝通

谷歌表示,分析海豚複雜的溝通模式是一項重大挑戰。幸運的是,WDP 的廣泛標記資料集代表了高級 AI 應用的完美平台。 DolphinGemma 採用了 Google 創新的 SoundStream 標記器,可將複雜的海豚叫聲轉換成更小、更易於管理的音訊單元。

這種簡化的方法採用專門設計的 AI 架構來處理這些音訊序列以進行分析。 DolphinGemma 擁有約 4 億個參數,經過最佳化,即使在研究人員在實地考察期間攜帶的 Pixel 設備上也能高效運作。

在 DolphinGemma 的早期測試中,左側發出哨聲,右側產生突發脈衝

DolphinGemma背後的機制

DolphinGemma 不同於傳統的機器學習模型,因為它嚴格地關注音訊輸入和輸出。它不是解釋文字或圖像,而是處理海豚的聲音序列,採用的方法受到大型語言模型理解人類語音的啟發。該模型根據現有序列預測後續聲音。

Denise Herzing 博士將其與海豚聲音的自動完成概念進行了類比,其中模型識別發聲的模式、結構和進展,就像文本模型根據上下文預測句子中即將出現的單詞一樣。

使用 CHAT 建構通用語言

在 DolphinGemma 問世之前,WDP 研究人員利用 CHAT(鯨豚聽覺增強遙測)來探索與海豚進行雙向溝通的可行性。 CHAT 的目標是創造一個更簡單、更共享的互動詞彙,而不是破解整個複雜的海豚語言。

該系統產生了新的合成口哨聲,這些口哨聲與海豚感興趣的特定物品(如馬尾藻、海草,甚至是彩色圍巾)相關聯,希望透過反覆接觸,海豚會開始模仿這些聲音來「要求」這些物品。

在 Google Pixel 6 的支援下,CHAT 無需自訂設備即可即時高效處理高品質音訊數據,從而簡化了開放海洋環境中的研究操作。對於即將到來的研究季節,由於改進的音訊硬體同時支援複雜的深度學習模型和模式識別,因此向 Pixel 9 的過渡將進一步增強功能。

搭載最新 CHAT 系統硬體的 Google Pixel 9
搭載最新 CHAT 系統硬體的 Google Pixel 9。

海洋哺乳動物研究的未來

谷歌計劃於今年夏天晚些時候發布 DolphinGemma 作為開放模型,旨在為全球研究人員提供探索自己的聲學數據集的工具。該計劃旨在加速模式識別並增強我們對這些智慧海洋生物的集體理解。

DolphinGemma 是Google輕量級大型語言模型 Gemma 系列的最新成員,目前包含從 10 億到 270 億個參數的各種規模的模型。

來源和圖片

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *