首页

手游

资讯

专题

首页 > 教程攻略 > ai资讯 >淘宝直播间智能化升级：基于LLM的学习与分析

淘宝直播间智能化升级：基于LLM的学习与分析

来源：互联网时间：2026-06-15 14:48:24

先说一下整个事情的背景。淘宝买菜这边的直播业务起步比较晚，业务压力一直不小。运营团队自然就想着，能不能去学习那些做得好的标杆直播间，把他们的优点拿过来用在自己的直播里。

最初 - 人海战术，学习PK

业务侧最直接的想法，还是用“人海战术”。说白了，就是让运营小二人工去盯各个直播间，把人家做得好的地方提炼出来，然后大家一起分享学习。

运营TL提出的要求，以及运营小二人工学习的范本，大致是这么个路子。

效果确实不错。但问题也很明显——人工学习太耗人了。运营同学几乎每天都要花大量时间蹲在直播间里琢磨，哪还有精力去做真正的“运营”工作？

熟悉LLM的朋友看到这里，估计已经反应过来了：这些运营总结出来的内容，怎么看着那么像大模型生成的？换句话说，基于LLM的总结，是不是也能达到类似的效果？

现在各个文本平台都有“速看”功能，那我们自然也可以想想，能不能用LLM来对标杆直播间做学习总结，把运营同学解放出来，让他们回归到真正的“运营”本职上。

方案

整体方案拆成三步：

用ffmpeg把m3u8类型的直播回放视频和音频下载到本地
通过集团内部的听悟工具，把音频转成文本
用文本大模型提取话术亮点，做多个直播间的横向对比；用图片大模型分析布景亮点，同样做横向对比

Step1：基于FFMPEG下载视频 & 音频

为什么想到用FFMPEG？这还得感谢GPT。下载视频和音频主要就两类核心命令：

视频下载：ffmpeg -i "http://example.com/playlist.m3u8" -c copy output.mp4
音频下载：ffmpeg -i "http://example.com/playlist.m3u8" -vn -acodec libmp3lame output.mp3

具体语法问GPT就行，这里就不展开了（不得不说，GPT解决编程问题确实好用）。

Step2：将音频转换成文本

这一步基本上是傻瓜式操作，把MP3文件上传，等一会儿就能拿到解析好的台本了。之后可以导出成srt、docx、pdf等格式。

Step3：基于大模型对文本进行概要总结

Prompt和LLM输出的总结内容示例，大致如下所示。

（此处插入原文中“话术分析”、“视觉分析”、“评论分析”三部分详细的Prompt和模型输出示例）

难点

1. 视频截断

录播的时长有时候很长，实操中经常遇到视频音频太大、太长，导致传不上去的情况。针对这个问题，有两种解法：

方案一（最终采用）：通过ffmpeg压缩音频码率，在不影响效果的前提下把文件体积降下来。
方案二：用一些开源剪辑软件，把视频切分成多个片段再上传。

2. Prompt调优

想拿到好的总结效果，一段高质量的Prompt是关键。调Prompt这件事，虽然有些原则可循，但整体上还是偏“玄学”，需要反复试。

（此处插入原文中“调优后的Prompt”具体内容）

在实际调优过程中，有几个经验值得拿出来说说：

Step By Step拆解
：这一步确实关键，能让大模型按照我们期望的格式和思路输出。
简明扼要具体
：描述越具体、越简洁，模型越能抓住重点，输出也更贴合主题。
给出参考示例
：有了示例，模型回答确实不会跑得太偏，但也容易导致它只围绕我们提到的点来答，甚至产生幻觉。
角色带入
：实践后发现，明确输出对象的角色（比如产品经理、直播运营、主播），效果比不明确角色要好很多。让大模型自己假设角色，效果反而一般，可能“数据分析师”这类角色对模型来说还是太抽象了。
人工优质文本示例
：这个试过，但效果不如不给——不仅没提升，反而让模型产生了更多幻觉，输出的内容和当前输入的台本对不上。

模型选择上，我们试了市面上几个主流的大语言模型，实际效果来看，还是GPT-4o最稳定。

3. 评论分析

基于同样的思路，还做了一个评论分析的功能。把直播间的用户评论抓下来，构建合适的Prompt丢给大模型分析。这块就不重复展开了。

上线后效果

基本链路搭好之后，又配套打通了工程链路。运营配置好想学的直播间，LLM自动输出学习总结，产品同学简单审核加工后，每天自动在群里推送。

（此处插入原文中“话术学习示例输出”、“布局学习示例输出”、“评论分析示例输出”三部分详细展示）

可以看到，LLM分析出来的内容已经能够达到运营学习的标准了——言之有物，还能输出一些后续在运营、产品、技术侧真正可执行的策略。

业务侧也给了不少正面反馈。基于LLM学习总结挖掘出来的一些新玩法，比如优惠券自动推送、商品智能推荐等，后续都以产品化的方式落地了，效果不错。台本中的闪光点沉淀到了运营标准话术库里，评论挖掘的内容则为后续选品提供了参考。

未来展望

经过这一轮实践，确实感受到了LLM结合具体业务场景带来的切实提升。但同时也看到了它的一些短板：总结有时还是偏宽泛，面面俱到但不够聚焦；推理和洞察能力还有提升空间；不调参的情况下，自迭代也比较困难。

后续重点会放在这么几个方向上：

持续打磨Prompt，让输出的学习总结更有针对性，给运营和产品同学更大的参考价值。
在学习总结中叠加实时流量因子，搞清楚哪些话术片段真正带来了场观提升，这样后续发力的方向也能更明确。
把LLM和直播应用做更深度的结合，比如基于LLM做选品Copilot、结合Alive组件做更多创新互动玩法、流量分析等等。

期待LLM和直播业务的结合，能带来更多实实在在的改变。

淘宝直播间智能化升级：基于LLM的学习与分析

最初 - 人海战术，学习PK

方案

Step1：基于FFMPEG下载视频 & 音频

Step2：将音频转换成文本

Step3：基于大模型对文本进行概要总结

难点

1. 视频截断

2. Prompt调优

Step By Step拆解

简明扼要具体

给出参考示例

角色带入

人工优质文本示例

3. 评论分析

上线后效果

未来展望

相关阅读

相关下载