Inworld AI 推出实时 TTS-2:一款适应用户交流方式的闭环语音模型
最近,Inworld AI 放出了一个大招——推出了全新的语音模型“实时 TTS-2”。这个模型目前通过 Inworld API 和研究预览版的 Realtime API 对外开放,目标很明确:要彻底改变我们和语音 AI 对话的体验。过去,语音合成基本就是“文转音”,是个单行道。而 TTS-2 玩的是闭环:它能实时“听”你说话,捕捉你语调里的起伏、节奏的快慢,甚至情绪的状态,然后给出更有“人味儿”的回应。

TTS-2 的核心优势,就在于这个闭环架构。它不依赖传统的“语音转文字,再处理文字”的管道,而是直接处理原始的音频流。这个区别至关重要,因为同样一句话,用不同的语气说出来,意思可能天差地别。比如一句“好吧,算了”,可以是无奈的放弃,也可以是轻松的妥协。TTS-2 能捕捉到这些细微的情感信号,这让对话的连贯性和真实感上了不止一个台阶。
那么,具体怎么实现呢?它主要靠四套“组合拳”。
语音指令:用说话的方式调声音
第一招叫“语音指令”。开发者不需要去记忆复杂的参数或者选择僵硬的情感标签,直接用自然语言描述就行。比如,告诉模型“用更兴奋一点的语气说这句话”,它就能理解并执行。这大大降低了调试门槛。
对话意识:让AI拥有上下文记忆
第二招是“对话意识”。得益于闭环系统,模型能理解对话的上下文。它知道你刚才问了什么,情绪如何,从而让接下来的回应更贴切,不会出现前言不搭后语的情况。
跨语言一致性:一个声音走遍天下
第三招关乎全球化——“跨语言一致性”。TTS-2 支持超过100种语言,而且关键在于,同一个“声音身份”在不同语言间能保持统一。用户可以在对话中随意切换语言,而AI的声音特质不会变,体验非常流畅。
高级语音设计:用文字“捏”出声音
最后一招是“高级语音设计”。这功能挺有意思,开发者不需要准备样本音频,仅仅通过一段文字描述(比如“一个温暖、沉稳的男中音,带有一点智慧的幽默感”),就能生成一个独特且可重复使用的声音。这为角色创造和内容制作打开了极大的想象空间。
划重点:
TTS-2通过闭环系统直接处理用户音频,理解情感和语调,实现更自然的交互。实时对话:
一个声音身份可在上百种语言间保持统一,支持对话中无缝切换。多语言支持:
开发者仅凭描述性文字即可生成独特、可复用的声音,无需参考音频。语音设计灵活:
总的来说,TTS-2 的推出,标志着语音AI从“能说”向“会聊”又迈进了一大步。它不再只追求音频输出的质量,更专注于对话中的上下文理解和情感一致性。在竞争白热化的语音AI市场,Inworld AI 这套以“实时感知”和“深度定制”为核心的打法,确实让人眼前一亮。