热搜词:

谷歌基于Gemma打造海豚专属模型,用4亿参数“解锁”海豚声音秘密

当地时间 4 月 14 日,在世界海豚日的当天,谷歌联合美国佐治亚理工学院团队以及非营利组织“野生海豚项目(WDP,Wild Dolphin Project)”,共同发布一款专为海豚打造的名为 DolphinGemma 的 AI 模型,并将在今年夏天投入试用。

谷歌 CEO 桑德尔·皮查伊(Sundar Pichai)发 X 表示:“该模型能够学习海豚的声音模式,预测它们接下来可能发出的声音。它的体积足够小(约 4 亿个参数),可以直接在用于海洋的 Pixel 9 手机上运行!这朝着实现跨物种交流迈出了非常酷的一步。”

研究地球上最聪明的生物之一

海豚通常被认为是地球上最聪明的生物之一。研究表明,它们能够互相合作以及互相传授新技能,甚至能在镜子中认出自己。海豚因其发达的大脑和复杂的社会结构,被认为是进行认知研究的优秀非人类动物代表。对于海豚认知的探索将有助于进一步提升人类对于地球动物的了解,并能帮助人类界定我们与它们的关系。

既然我们知道海豚有着复杂的交流系统,那么就要设法理解这一系统。除了理解它们所发出的声音外,还需要考虑许多因素包括它们所处的环境、行为、身体姿势以及空间联系和社会联系。

几十年来,科学家们一直试图弄清楚海豚用来交流的复杂哨声和“喀哒”声。了解任何物种都需要深入理解其背景,而这正是“野生海豚项目”组所能提供的内容之一。

自 1985 年以来,由丹尼斯·赫尔辛(Denise Herzing)博士创办的“野生海豚项目”,希望能够实现实现人与海豚之间的双向交流。为此,野生海豚项目”组一直在开展、并仍在开展全球持续时间最长的水下海豚研究项目。其间,他们曾针对巴哈马国巴哈马群岛的一群野生大西洋斑点海豚进行过跨代研究。

非营利组织、学界和业界的三方联动

要想分析海豚的自然交流并非易事,但是“野生海豚项目”组所积累的庞大的标记数据集,为结合其他前沿技术提供了独特机会。

此前,“野生海豚项目”组与佐治亚理工学院团队合作开发了鲸类听力增强遥测(CHAT,Cetacean Hearing Augmentation Telemetry)系统。

CHAT 是一款“水下计算机”,配有一个视频相机和三个水听器,通过其所记录的数据可以评估声音在水中的方向性。其设计目的并非为了直接破译海豚复杂的自然语言,而是为了建立一种更简单的、更共通的词汇表。

CHAT 能够生成新颖的合成哨声,这种声音与天然海豚声音完全不同。研究中,合作团队将合成声音和海豚喜欢的马尾藻、海草或围巾等特定物体联系起来。

图 | 一只幼海豚正在玩马尾藻,这是大西洋斑点海豚的天然玩具(来源:见水印)

通过演示这一系统,“野生海豚项目”组希望这些天生好奇的海豚能够学会模仿哨声进而索要玩具。

CHAT 系统所具备的以下功能,使其能够实现人类和海豚的互动:

  • 在海洋的嘈杂声中,CHAT 能够准确地听出模仿的声音。
  • CHAT 能够实时识别出海豚模仿的是哪种哨声。
  • CHAT 通过能在水下工作的骨传导耳机告知研究人员,海豚“请求”的是哪个物品。
  • 通过提供正确的物品,CHAT 能使研究人员快速做出反应,从而加强这种联系。

当然,仅有数据集和 CHAT 这样的“水下计算机”还不足以完成研究海豚的目标。这时,谷歌的 Pixel 系列手机派上了用场,该手机能够实时处理海豚声音的高保真分析。

(来源:谷歌)

使用 Pixel 智能手机可大幅减少对定制硬件的需求,在提高系统可维护性的同时还能降低功耗,并能缩减设备成本和尺寸,这对于公海实地研究来说都是至关重要的优势。

预计于 2025 年夏季推出的 Pixel 9,将会集成扬声器功能和麦克风功能。升级至 Pixel 9 之后,将使 CHAT 能够同时运行深度学习模型和模板匹配算法。

同时,DolphinGemma 的预测能力可以帮助 CHAT 在海豚发声序列的早期,就能预测和识别潜在的模仿行为,从而提高研究人员对海豚的反应速度,进而使互动更加流畅。

图 | 最新 CHAT 系统硬件中的 Pixel 9(来源:谷歌)

虽然 DolphinGemma 是基于大西洋斑点海豚的声音进行训练的,但谷歌预计它对于研究其他鲸目动物比如宽吻海豚或飞旋海豚同样具有潜在效用。

对于不同物种的叫声,可能需要针对模型进行微调,而 DolphinGemma 模型具备一定的开放性,非常有助于实现这种调整。

(来源:见水印)

与 Gemma 模型一样,DolphinGemma 也是一个开源模型。谷歌将于今年夏天发布该模型,供世界各地的研究人员使用。通过提供 DolphinGemma 等工具,谷歌希望为全球研究人员提供挖掘声学数据集的工具,共同加深对于这些智能海洋哺乳动物的理解。

总的来说,这项工作通过建立一种相互理解的交流系统,希望能够超越非人类动物与人类之间的人为界限。这种探索跨物种交流的方法,不仅拓展了 AI 的边界,也拓展了人类与海洋世界的潜在联系。

参考资料:

https://www.wilddolphinproject.org/

https://techcrunch.com/2025/04/14/googles-newest-ai-model-is-designed-to-help-study-dolphin-speech/

https://finance.yahoo.com/news/googles-newest-ai-model-designed-162655313.html?guccounter=1&guce_referrer=aHR0cHM6Ly93d3cuZ29vZ2xlLmNvbS8&guce_referrer_sig=AQAAAJ9xdeI7jFMvFjT2Zn4KTeF639y5cW-0BvFq53WCfNp6Trhi4v5Jjx_IyuDpJ3T_A8jYfMuv6gKx8s79S5pkPJ-IcrUL7olJA4gqlNZe28jgcF3pWx5jR9ho_fv6kS3GxBU9jJMzJmw5gwqBEjiUUjo-sR15GLJMvDXHmZZlZpCu

https://www.wilddolphinproject.org/about-us/

运营/排版:何晨龙