京东 JoyAI 语音大模型 LiveTTS 支撑 618 多场景语音交互
作为京东自研的语音合成能力,京东 JoyAI 语音大模型LiveTTS 覆盖“捏声音”、方言切换、情绪控制和小语种合成等方向,并已应用于 JoyInside 智能终端、JoyAI App 万能博士、京东数字人 JoyStreamer、AI 播客等场景,为 618 期间多场景语音交互提供技术支撑。
近日,京东 JoyAI 语音大模型 LiveTTS 已全面接入京东 JoyClaw。
六大核心能力覆盖语音生成关键环节
JoyAI 语音大模型 LiveTTS 围绕语音生成、表达控制和音色定制,形成六项核心能力。
在语言覆盖方面,LiveTTS 支持中英、粤语、德语、法语、西班牙语、日语、韩语、荷兰语、阿拉伯语等多语种合成,适配不同语言环境下的内容表达需求。
在方言表达方面,LiveTTS 可实现方言解耦,覆盖东北话、河南话、闽南话、天津话、四川话、陕西话、粤语、上海话等全国多地方言。
在表达控制方面,LiveTTS 具备情绪解耦与语速解耦能力,可实现不同情感控制和语速控制,使合成语音在情绪、节奏上更贴合文本内容与使用场景。
在音色定制方面,LiveTTS 可通过融合多个音色的声纹,实现新的声音捏制;同时支持基于 3—10 秒音频完成一句话音色克隆。
这些能力使 LiveTTS 不仅能够完成文字到语音的转换,也可围绕语言、方言、情绪、语速和音色等维度进行控制,适配不同业务场景下的语音交互需求。
多场景应用提升语音交互体验
目前,LiveTTS 已在京东多个业务场景中应用。
在 JoyInside 智能终端场景中,JoyInside 生态涵盖玩具、机器狗、学习机、台灯等多元终端。LiveTTS 通过方言解耦能力,可一句话实现方言与哼唱合成,提升不同地域、不同年龄用户的语音交互体验。
在 JoyAI App 万能博士场景中,JoyAI App 作为“能聊能办”的万能数字助手,兼具工具与陪伴属性,并深度融入京东供应链。用户打开 JoyAI App,即可体验万能博士对话效果。目前,每天有数万人与万能博士进行聊天对话。
在京东数字人 JoyStreamer 场景中,京东数字人 JoyStreamer 目前累计服务超 7 万商家。借助 LiveTTS,数字人主播可呈现更具情绪张力的表达效果,支持直播间商品讲解与互动等场景。
在 AI 播客场景中,LiveTTS 可将图文内容转化为拟真人声表达,用户打开 JoyAI App 即可体验相关能力。
大模型技术支撑 618 高并发场景
声音是情感、情绪表达的重要载体。近年来,大语言模型的发展正在重塑语音合成技术范式,即将语音转化为 Token 序列进行深度建模。JoyAI 语音大模型 LiveTTS 依托 LLM 底层能力,引入自然语言指令控制,可通过 Prompt 实现同一音色在多语种、多方言之间切换,并对复杂情绪进行控制。
据介绍,该能力打破了传统主流 TTS 中音色与方言绑定、情绪不饱满、语速难以调控等问题。伴随音色与语种、方言、情感等能力的解耦,语音交互正在从单向信息传递向更具情感表达的方向发展。
618 作为超大规模工业场景,对语音交互技术提出了高并发、低延迟、高稳定性等要求。除上述场景外,LiveTTS 相关能力还支持了智能客服、营销等数十个场景应用,为京东 618 期间每日千万级、全场景、高并发的实时交互提供超低延迟、高稳定性输出支撑。