淘宝直播间智能化升级:基于LLM的学习与分析
先说一下整个事情的背景。淘宝买菜这边的直播业务起步比较晚,业务压力一直不小。运营团队自然就想着,能不能去学习那些做得好的标杆直播间,把他们的优点拿过来用在自己的直播里。

最初 - 人海战术,学习PK
业务侧最直接的想法,还是用“人海战术”。说白了,就是让运营小二人工去盯各个直播间,把人家做得好的地方提炼出来,然后大家一起分享学习。
运营TL提出的要求,以及运营小二人工学习的范本,大致是这么个路子。
效果确实不错。但问题也很明显——人工学习太耗人了。运营同学几乎每天都要花大量时间蹲在直播间里琢磨,哪还有精力去做真正的“运营”工作?
熟悉LLM的朋友看到这里,估计已经反应过来了:这些运营总结出来的内容,怎么看着那么像大模型生成的?换句话说,基于LLM的总结,是不是也能达到类似的效果?
现在各个文本平台都有“速看”功能,那我们自然也可以想想,能不能用LLM来对标杆直播间做学习总结,把运营同学解放出来,让他们回归到真正的“运营”本职上。
方案
整体方案拆成三步:
- 用ffmpeg把m3u8类型的直播回放视频和音频下载到本地
- 通过集团内部的听悟工具,把音频转成文本
- 用文本大模型提取话术亮点,做多个直播间的横向对比;用图片大模型分析布景亮点,同样做横向对比
Step1:基于FFMPEG下载视频 & 音频
为什么想到用FFMPEG?这还得感谢GPT。下载视频和音频主要就两类核心命令:
- 视频下载:
ffmpeg -i "http://example.com/playlist.m3u8" -c copy output.mp4 - 音频下载:
ffmpeg -i "http://example.com/playlist.m3u8" -vn -acodec libmp3lame output.mp3
具体语法问GPT就行,这里就不展开了(不得不说,GPT解决编程问题确实好用)。
Step2:将音频转换成文本
这一步基本上是傻瓜式操作,把MP3文件上传,等一会儿就能拿到解析好的台本了。之后可以导出成srt、docx、pdf等格式。
Step3:基于大模型对文本进行概要总结
Prompt和LLM输出的总结内容示例,大致如下所示。
(此处插入原文中“话术分析”、“视觉分析”、“评论分析”三部分详细的Prompt和模型输出示例)
难点
1. 视频截断
录播的时长有时候很长,实操中经常遇到视频音频太大、太长,导致传不上去的情况。针对这个问题,有两种解法:
- 方案一(最终采用):通过ffmpeg压缩音频码率,在不影响效果的前提下把文件体积降下来。
- 方案二:用一些开源剪辑软件,把视频切分成多个片段再上传。
2. Prompt调优
想拿到好的总结效果,一段高质量的Prompt是关键。调Prompt这件事,虽然有些原则可循,但整体上还是偏“玄学”,需要反复试。
(此处插入原文中“调优后的Prompt”具体内容)
在实际调优过程中,有几个经验值得拿出来说说:
- :这一步确实关键,能让大模型按照我们期望的格式和思路输出。
Step By Step拆解
- :描述越具体、越简洁,模型越能抓住重点,输出也更贴合主题。
简明扼要具体
- :有了示例,模型回答确实不会跑得太偏,但也容易导致它只围绕我们提到的点来答,甚至产生幻觉。
给出参考示例
- :实践后发现,明确输出对象的角色(比如产品经理、直播运营、主播),效果比不明确角色要好很多。让大模型自己假设角色,效果反而一般,可能“数据分析师”这类角色对模型来说还是太抽象了。
角色带入
- :这个试过,但效果不如不给——不仅没提升,反而让模型产生了更多幻觉,输出的内容和当前输入的台本对不上。
人工优质文本示例
模型选择上,我们试了市面上几个主流的大语言模型,实际效果来看,还是GPT-4o最稳定。
3. 评论分析
基于同样的思路,还做了一个评论分析的功能。把直播间的用户评论抓下来,构建合适的Prompt丢给大模型分析。这块就不重复展开了。
上线后效果
基本链路搭好之后,又配套打通了工程链路。运营配置好想学的直播间,LLM自动输出学习总结,产品同学简单审核加工后,每天自动在群里推送。
(此处插入原文中“话术学习示例输出”、“布局学习示例输出”、“评论分析示例输出”三部分详细展示)
可以看到,LLM分析出来的内容已经能够达到运营学习的标准了——言之有物,还能输出一些后续在运营、产品、技术侧真正可执行的策略。
业务侧也给了不少正面反馈。基于LLM学习总结挖掘出来的一些新玩法,比如优惠券自动推送、商品智能推荐等,后续都以产品化的方式落地了,效果不错。台本中的闪光点沉淀到了运营标准话术库里,评论挖掘的内容则为后续选品提供了参考。
未来展望
经过这一轮实践,确实感受到了LLM结合具体业务场景带来的切实提升。但同时也看到了它的一些短板:总结有时还是偏宽泛,面面俱到但不够聚焦;推理和洞察能力还有提升空间;不调参的情况下,自迭代也比较困难。
后续重点会放在这么几个方向上:
- 持续打磨Prompt,让输出的学习总结更有针对性,给运营和产品同学更大的参考价值。
- 在学习总结中叠加实时流量因子,搞清楚哪些话术片段真正带来了场观提升,这样后续发力的方向也能更明确。
- 把LLM和直播应用做更深度的结合,比如基于LLM做选品Copilot、结合Alive组件做更多创新互动玩法、流量分析等等。
期待LLM和直播业务的结合,能带来更多实实在在的改变。