首页 > 教程攻略 > ai资讯 >谷歌全新实时语音互译模型发布:支持70余种语言,可还原原声语调

谷歌全新实时语音互译模型发布:支持70余种语言,可还原原声语调

来源:互联网 时间:2026-06-12 13:21:04

谷歌最近放了个大招——悄悄发布了全新的实时语音互译模型 Gemini 3.5 Live Translate。这可不是一次常规的翻译模型更新,而是一次真正意义上的“即时对话突破”。

\

先来看几个核心亮点。这个模型能够自动识别超过70种语言,而且在翻译语音时,可以高度还原说话者原本的语调、语速甚至音高——也就是说,翻译出来的结果不再是一板一眼的机械音,而是保留了原话的情感节奏。更重要的是,它彻底改变了传统翻译系统“听完再翻”的滞后模式。你可以边说话边看到译文输出,模型在接收语音的同时完成理解和翻译,上下文连贯性没丢,而整体延迟仅数秒。这背后的技术平衡,相当考验功力。

目前 Gemini 3.5 Live Translate 已经开始逐步落地谷歌旗下的各类产品。开发者可以通过 Gemini Live API 和 Google AI Studio 直接体验公开预览版本;企业用户本月起就能在 Google Meet 中调用专属的私有预览版;而普通用户则可以在安卓、iOS 端的谷歌翻译 App 里直接感受相关功能。覆盖面相当广,几乎照顾到了每个层级的需求。

值得留意的是,该模型还具备自动识别混合语言输入的能力——比如一句话里中英夹杂,它也能顺畅处理。同时,它的抗干扰能力也做了针对性优化,嘈杂环境下的翻译效果明显提升。应用场景自然也就丰富了起来:多语言通话、跨国会议、在线课程、直播广播……凡是需要实时口译的场合,它都能派上用场。