首页 > 教程攻略 > ai教程 >谷歌AI成功破解海豚语,海洋版ChatGPT来了,掀人类跨物种交流革命

谷歌AI成功破解海豚语,海洋版ChatGPT来了,掀人类跨物种交流革命

来源:互联网 时间:2026-06-26 07:17:21

你是否曾经好奇过海豚神秘的声音在说什么?

现在借助AI的力量,实现「人与海豚」的跨物种交流,可能比我们想象的要近得多。

谷歌最近推出了一款名为DolphinGemma的创新AI模型,它不仅能听懂海豚说什么,甚至能尝试在水下与它们进行实时互动。

听起来像科幻情节,但这已经是正在发生的事实。不得不说,人类对AI的应用探索,或许真的连1%都还没到。

DolphinGemma是一个基础的语言模型——但它的“母语”是音频数据。它被专门训练来学习海豚发声的结构,并能够生成类似海豚的声音序列。可以把它看作是历史上第一个真正尝试与动物进行“对话”的大语言模型。

Google的CEO Sundar Pichai对此评价很高,称其为“朝着实现跨物种交流迈出了非常酷的一步”。同时,他还宣布将在今年夏天开源这个模型。也许未来,你带着它去水族馆,真的能展示一下“超能力”。

更让人兴奋的是,这个模型足够轻量,只有400M参数,可以流畅地部署在一台普通的手机上。

几十年来,理解海豚的哨声和爆发脉冲一直处于科学探索的前沿。

如果人类不仅能聆听海豚,还能彻底理解它们复杂交流的模式,那是否意味着,我们与另一个物种之间的交流障碍将被真正打破?

DolphinGemma打破交流障碍

和训练文本LLM的逻辑一样,DolphinGemma学习的本质,也是预测——只不过它预测的是海豚在声音序列中下一个可能出现的发声。

要实现这一点,技术路径很清晰。DolphinGemma利用了谷歌特有的音频技术——SoundStream分词器,它能高效地表示海豚声音,将这些复杂的声学信号转化为模型可以处理的序列,再由适合复杂序列的模型架构进行深度分析。

得益于其仅400M的参数规模,模型可以直接在Google Pixel手机上运行,这为后续的实地研究提供了极大的便利。

左侧展示了DolphinGemma早期测试中生成的哨声和爆发脉冲。

DolphinGemma基于Gemma构建,而Gemma本身就是谷歌最先进的轻量级开源模型系列,其研发和技术与强大的Gemini模型同源。

跟我们熟知的文本LLM不同,DolphinGemma是一个纯粹的音频输入、音频输出模型。它直接处理自然的海豚声音序列,识别其中的模式和结构,并最终预测序列中可能的后续声音——这就像LLM预测下一个单词或Token一样,只不过“语言”变了。

海豚数据集:WDP数十年的坚持

想要与海豚“沟通”是一项极其艰巨的任务。

这项研究的突破,首先要归功于WDP(Wild Dolphin Project)提供的庞大且标记详尽的数据集。正是这个独家的数据库,为前沿AI研究提供了极其难得的训练素材。

自1985年以来,WDP开展了世界上持续时间最长的水下海豚研究项目。他们对巴哈马特定社区的野生大西洋斑点海豚(Stenella frontalis)进行了跨越数十年的追踪研究。

这种研究遵循“在他们的世界,以他们的方式”的非侵入性原则,造就了一个无比珍贵的数据集。它包含了数十年积累的水下视频和音频,并且每一条数据都与个体海豚的身份、生活史和观察行为仔细配对。

一群大西洋斑点海豚。

WDP长达数十年的观察工作至关重要。其最终目标是理解这些海豚声音序列中的结构和潜在含义——即寻找海豚语言中隐藏的模式和规则。没有这种对自然交流的长期分析作为基础,任何AI分析都将是空中楼阁。

左边展示了一只母斑点海豚在觅食时观察她的幼崽,她会使用独特的签名哨声呼唤幼崽回来。右边是用于可视化海豚哨声的频谱图。

用Pixel手机和海豚交流

有了数据和模型,下一个关键问题是如何让DolphinGemma的声音真正被海豚听到和回应?

为此,WDP与佐治亚理工学院合作,开发了一套名为“鲸目动物听力增强遥测”(CHAT)的水下计算机系统。

CHAT的路径很巧妙。它并没有试图直接破译海豚复杂的自然语言,而是先建立一个更简单、共享的“词汇表”。研究人员在自己之间演示这套系统的用法,希望天生好奇的海豚能学会模仿这些特定哨声,从而向人类请求它们喜欢的物体。随着对更多海豚自然声音的理解,这些声音也可以逐步被添加到系统中。

CHAT系统的最新版本,选择以Google Pixel 9为基础,整合了扬声器和麦克风功能,并充分利用了智能手机的先进处理能力。使用Pixel手机最大的好处是极大减少了对定制硬件的依赖,降低了设备的成本和体积,这对于在公海进行研究的科研人员来说是巨大的利好。

一台Google Pixel 9被集成在了最新的CHAT系统硬件内部。

部署在手机上的DolphinGemma,可以直接帮助CHAT在海豚发声序列的早期阶段预测和识别出潜在的模式。

跨物种交流,AI搞定

不得不说,谷歌这次推出DolphinGemma,确实值得点个大大的赞。在当下业界巨头们都在疯狂“卷模型”规模的时候,DolphinGemma不仅另辟蹊径,也让我们看到了AI更多的可能性。

在探索AI新应用的同时,它也给了像WDP这样数十年如一日坚持科研的团队带来了前所未有的机遇。AI对我们生活的影响,还远远没有结束。

DeepMind的CEO Hassabis还透露,未来有计划与更多高智商动物进行交流,比如他家里的狗。

Hassabis说他很好奇自己家的狗到底在想什么。

谁敢说这不可能呢?也许在不久的将来,每个人都能借助AI,直接和自己的猫狗进行一场“家庭对话”。

这个画面,想想就充满了喜感。

相关下载