首页 > 教程攻略 > ai资讯 >谷歌发布最强TTS模型，支持近 70 种语言

谷歌发布最强TTS模型，支持近 70 种语言

来源：互联网时间：2026-07-05 14:55:07

谷歌Gemini-TTS：把声音的“控制权”交给开发者

谷歌最近在Gemini 3.1系列里，正式上线了全新的文字转语音模型Gemini-TTS。官方的定位简洁有力，直接宣称这是“至今最富表现力的文本转语音解决方案”。

这款模型最核心的突破点在哪里？关键在于，它真正把语音的“控制权”交到了开发者手中。回想一下，过去的TTS产品，生成的声音常常显得千篇一律：语气平淡、节奏呆板、情绪单薄。而Gemini-TTS则支持通过提示词，直接调控语音的情感、节奏和风格——无论是需要低沉庄重的旁白，还是轻松自然的对话，甚至停顿该落在哪里、情绪该如何起伏，都可以用语言描述来精确控制。从听感上来说，其自然度和细腻程度，确实比以往的同类产品提升了一个明显的台阶。

在多语言支持上，Gemini-TTS覆盖了大约70种语言，中文普通话、英语、西班牙语、日语等主流语种都包含在内。更省心的是，模型能够自动识别输入文本的语种，无需开发者手动标注，就能直接生成对应语言的语音输出。这对于需要服务全球用户的企业而言，意味着用一套API就能满足多语种内容的语音化需求。像有声读物、播客、客服机器人、教育应用这些场景，都是直接的受益者。

此外，谷歌还特别强调了Gemini-TTS与同系列音频模型的协同能力。在实时对话、语音翻译和多模态交互这类场景中，系统可以在保持低延迟的同时，借助文本提示和音频标记，对语音输出进行精细调控。这样一来，AI在电话、会议、导航等实际应用场景中的语音表现，听起来就能更接近真实的人类交流。

总而言之，语音领域正在成为AI竞争的下一个主战场。谷歌这次的出手，可谓来势不小。

谷歌发布最强TTS模型，支持近 70 种语言

谷歌Gemini-TTS：把声音的“控制权”交给开发者

相关阅读

相关下载