谷歌发布最强TTS模型,支持近 70 种语言
来源:互联网
时间:2026-07-05 14:55:07
谷歌Gemini-TTS:把声音的“控制权”交给开发者
谷歌最近在Gemini 3.1系列里,正式上线了全新的文字转语音模型Gemini-TTS。官方的定位简洁有力,直接宣称这是“至今最富表现力的文本转语音解决方案”。
这款模型最核心的突破点在哪里?关键在于,它真正把语音的“控制权”交到了开发者手中。回想一下,过去的TTS产品,生成的声音常常显得千篇一律:语气平淡、节奏呆板、情绪单薄。而Gemini-TTS则支持通过提示词,直接调控语音的情感、节奏和风格——无论是需要低沉庄重的旁白,还是轻松自然的对话,甚至停顿该落在哪里、情绪该如何起伏,都可以用语言描述来精确控制。从听感上来说,其自然度和细腻程度,确实比以往的同类产品提升了一个明显的台阶。

在多语言支持上,Gemini-TTS覆盖了大约70种语言,中文普通话、英语、西班牙语、日语等主流语种都包含在内。更省心的是,模型能够自动识别输入文本的语种,无需开发者手动标注,就能直接生成对应语言的语音输出。这对于需要服务全球用户的企业而言,意味着用一套API就能满足多语种内容的语音化需求。像有声读物、播客、客服机器人、教育应用这些场景,都是直接的受益者。
此外,谷歌还特别强调了Gemini-TTS与同系列音频模型的协同能力。在实时对话、语音翻译和多模态交互这类场景中,系统可以在保持低延迟的同时,借助文本提示和音频标记,对语音输出进行精细调控。这样一来,AI在电话、会议、导航等实际应用场景中的语音表现,听起来就能更接近真实的人类交流。
总而言之,语音领域正在成为AI竞争的下一个主战场。谷歌这次的出手,可谓来势不小。