首页

手游

资讯

专题

首页 > 教程攻略 > ai资讯 >谷歌干掉了「等你说完才翻译」，70+语言边听边译

谷歌干掉了「等你说完才翻译」，70+语言边听边译

来源：互联网时间：2026-06-12 14:43:43

把“对讲机”式翻译彻底终结

过去的翻译机，大家应该都很熟悉。

你这边刚说完一句，它得先憋着，等你把话全讲完了，才慢吞吞地开始翻译给对方。这一来一回，对话的节奏被切割得支离破碎，两个人说话的体验，就像在用对讲机——按下说话、松开接收，毫无流畅感可言。

更麻烦的是，真实对话从来都不是规规矩矩的一人一句。人们会抢话、会犹豫、会说到一半改口。传统的翻译模式完全跟不上这种动态变化。

而Google这次推出的Gemini 3.5 Live Translate，路子完全不同。

它边听边译，话音未落，译音就已响起。

这背后是一套极其精妙的平衡法则：多等一会儿，上下文信息更充足，翻译准确性就更高；但立刻开口，又必须紧紧咬住说话人的节奏，还得能够准确预测尚未说出的后半句。模型就在这两端之间，逐字逐句地反复权衡，最终交出的答卷是——

输出流畅，没有令人尴尬的卡顿，全程只落后说话人几秒钟。

更惊艳的，是声音本身。

它能保留你的语速、音高和语调——翻译出来的不再是冷冰冰的机器合成音，而是带着你个人说话风格的声音。你若着急，译音也跟着急促；你若慢条斯理，译音也会显得从容不迫。

DeepMind同步公布的模型卡透露了不少细节：这个模型基于Gemini 3 Pro打造，能够处理最长128K token的音频上下文，其评测指标死死咬住三个核心方向——翻译质量、延迟、语音自然度。

换句话说，Google给这个模型设定的KPI，不是“翻得对不对”，而是“聊得顺不顺”。

它一口气能识别70多种语言，并且全自动检测，对话中途换一种语言也能无缝跟上，完全无需手动设置。环境嘈杂也不在话下——菜市场、机场、马路旁边，都能正常发挥作用。

开发者、企业、普通人，一个都不落下

这次Google的布局相当激进，三条战线同时铺开。

面向开发者：通过Gemini Live API和Google AI Studio开放公测，今天就能上手尝试；
面向企业：本月开始在Google Meet内测；
面向大众：Google Translate的安卓和iOS版全球上线——点开App左下角的“实时翻译”，接上任意一副耳机就能直接使用。

对打工人冲击最大的，要属Google Meet的更新。以前它的语音翻译只支持5种语言，还只能在英语和其他语言之间来回切换。

现在一口气扩展到70多种语言，单场会议能够支持超过2000种语言组合——英语、普通话、瑞典语满会场飞，每个人说的话，另一方都能瞬间理解。

安卓版本还藏了一个非常机灵的细节：“聆听模式”。把手机像打电话一样贴在耳边，译音直接从听筒里传出，旁人完全听不到。

想象一下，跟个西班牙语导游团，临时没带耳机，掏出手机往耳边一贴，就能救急。

每月一千万通电话的真实锤炼

光说参数太过抽象，不如看一个具体的落地场景。

Google找来东南亚的Grab进行测试。司机说本地语言，乘客听到的是自己的母语；那些日常沟通中频繁使用的“你在哪”、“我马上到”，不会再出现鸡同鸭讲的尴尬。

需要特别注意的是，Grab用户每个月要拨打超过1000万次语音电话——这可不是发布会上的Demo演示，而是真刀真枪塞进千万次日常对话里跑出来的实战检验。

除了Grab，CJ ENM、LiveKit等公司也提前完成了测试，反馈全都指向同一个方向：

质量、准确度、低延迟。

这次对开发者来说，也省去了大量的基础设施搭建工作。

Agora、Fishjam、LiveKit等平台已经全面接入Gemini Live API，把最棘手的实时媒体流基础设施全部包揽——采集、传输、回声消除这些脏活累活有人扛，开发者只需专注于业务体验。

视频配音、多语言直播、跨语言客服、在线课堂，全都是现成的应用场景。

二十年长跑，终于跑进了耳机

回头再看，你会发现这件事，Google已经默默布局了很多年。

20年前，Google翻译只是一个开创性的小实验，试图将语言这门科学，变成连接人与人之间的魔法。

如今，每个月它要为数十亿用户翻译超过一万亿个单词。

从“把文字翻成文字”，到“拍张照片翻译菜单”，再到今天“把你说的话，实时变成另一种语言的声音”，这条路走了整整二十年。

当然，话也别说太满。

谷歌官方自己同样标明了现阶段的限制：

目前只接受音频输入；遇到重口音、快速来回切换语言、多人同时说话、或者较长的停顿停顿，声音复刻的效果还可能出现不稳定。

它不是终点，但无疑是一个相当能打的起点。

方向已经无比清晰。同声传译，曾经是顶尖译员才能扛得下来的艰巨任务，一小时收费几千块，还要提前一周备稿。

而现在，它正在变成耳机里一个默默运行的功能，随叫随到。