Agent行业落地 | 在小爱同学语音助手场景下的应用
AI agent在小爱同学语音助手场景下的应用实践,核心内容如下:
1. 智能语音助手的变革步骤
2. Agent技术带来的新机遇
3. Agent在小爱同学中的成功实践与挑战
一、智能语音助手的变革
智能语音助手的核心使命,说到底就是两件事:听懂用户想干什么,然后做出决策并执行。整个过程可以拆解为几个关键环节:用户输入请求(Query)、意图理解、决策、执行,最终把结果反馈给用户(Response)。
- :通过语音或文本输入请求。
Query
- :对用户的输入进行意图分类与实体识别。
理解
- :根据理解结果,进行任务拆解与选择。
决策
- :调用功能或服务,满足用户需求。
执行
- :以语音或文本的形式反馈给用户。
Response

Agent技术之所以重要,就在于它能在语音助手的意图理解、复杂任务决策和执行上,扮演真正的“大脑”角色,让原本生硬的流程变得灵活起来。
二、Agent技术带来的新机遇
传统语音助手的架构堪称复杂,但局限性也十分明显。Agent技术引入后,带来了一套全新的架构和策略,系统设计大幅简化,智能化水平也顺势上了个台阶。

架构精简
垂域简化
策略优化
话术升级
数据驱动
三、Agent在小爱同学中的成功实践
不过,理想很丰满,现实也有不少硬骨头要啃。

Agent技术在小爱同学中落地,面临六大挑战:语义理解与Planning的融合、API调用质量、判别与生成模型的自然交互、API质量和稳定性、数据驱动的自我优化,以及毫秒级响应速度。这些挑战没有一个是省油的灯。
1、语义理解与Planning能力的结合
传统语义表示方法在Agent面前显得力不从心——依赖人工预设和枚举,应用空间天然受限。分类任务中类别固定,长尾需求根本接不住;意图槽位范式不支持复杂嵌套逻辑,Agent的规划潜力被锁死了。

代码式语义表示则提供了接近人类语言的表达能力,充分释放了大语言模型(LLM)在推理规划上的优势。基于定义的动作与实体自由组合意图表示,LLM在Coding任务上的底层能力也被调用了——指令输出代码,这种表示方法大幅提升了Agent理解和执行任务的灵活性和准确性。

多Agent框架采用分而治之、协同调度的方式,实现Agent间的有效合作。中控Agent接收用户查询并协调其他Agent,比如先调用工具Agent总结文档,再调用控制Agent把结果通过微信发送给联系人,协同效果立竿见影。

2、提升Agent在垂直场景中的表现
垂直场景里,Agent容易翻的跟头不少:归一化错误、长尾表达理解不佳、业务实体不熟悉、业务功能不熟悉。比如用户说“帮我打开低电量模式”,Agent可能打开“省电模式”;“屏幕上字这么小怎么看得清”这类长尾表达,Agent可能压根不知道要调“字体大小”。

要提升表现,得在大规模业务数据上搞无监督训练,补充业务知识、熟悉业务定义。然后做高质量精细化微调,根据业务需求小修小补,快速适配不同场景。

另一个关键动作是通用能力评估加领域能力训练,涵盖语言建模、知识储备、上下文理解和推理能力。通过领域能力训练,Agent能学会特定领域的业务划分和多轮会话理解,垂直场景下的表现自然跟着涨。

持续预训练的效果相当明显。对比4B模型、7B模型和4B模型+持续训练,在单轮、多轮、鲁棒性、多指令和负例等场景下,持续训练的模型准确性提升肉眼可见。这说明持续预训练是提升垂直场景表现的硬核手段。

3、Agent在与用户交互中成长
Agent的成长离不开用户反馈。环境反馈扮演着至关重要的角色:显式反馈如点赞、点踩、投诉、提交反馈;隐式反馈如打断、辱骂、未听完、重说。这些信号被Agent用来优化性能和响应能力,一步步变得更聪明。

基于反馈的强化学习链路是核心驱动力。业务能力训练涉及语义函数推理、意向性泛化和多指令拆解。通过监督学习(SFT)和强化学习(RL),Agent学会更好理解和响应用户指令;不断对齐数据和边界数据,逐渐适应并优化在特定业务场景中的表现。

4、提升Agent服务响应速度
响应速度是用户体验的命门。大语言模型(LLM)的三个性能瓶颈:序列长度增长导致计算开销陡增、Decoder结构串行解码效率低下、参数量大占用显存多。解决思路无非三管齐下:优化算法或改进模型结构、用更高效硬件、压缩Prompt减少输入序列长度。具体操作上,训练阶段把Instruction Prompt转成Soft Token再生成Output,推理阶段用压缩后的Prompt,数据量少了,解码自然更快。
业务定制的投机采样也能减少解码步骤,通过Draft Model、Ngram Model、Medusa/Eagle Model等不同模型处理请求,结合Training Data优化,砍掉不必要的计算,响应速度再上一个台阶。
经过这些升级,Agent的能力从只能执行单一指令进化到能同时处理多个指令。比如用户说“声音和亮度都调小一点吧”或者“单曲循环上一首歌”,Agent能准确理解并执行。这种复合指令的处理能力,让用户可以用更自然的语言交互,操作便捷性大幅提升,体验质的飞跃。