video-use - Browser Use 团队开源的 AI 视频剪辑 Agent
来源:互联网
时间:2026-07-04 14:51:15
video-use是什么
Video-use 是 Browser Use 团队刚开源的一个 AI 视频剪辑 Agent,它最大的看点在于:你可以用自然语言跟它对话,让它替你完成剪辑,完全不用碰传统的时间线。操作方式也很直白——把原始素材扔进文件夹,然后告诉它你想做什么,Agent 就会自动帮你盘点素材、清理口癖、调色、加字幕、叠动画,最后还会自己检查一遍,然后输出成片。核心的创新在于,它通过音频转录文本(大约 12KB)来理解视频内容,这样 LLM 的 token 成本就被压得非常低。说白了,它特别适合口播、教程、访谈这类结构化内容的高效自动化剪辑。
video-use的主要功能
具体能做什么?我们来过一遍它的功能列表:
- :自动识别并删除“嗯”“啊”这类填充词、长停顿,还有那些拍了好几遍但表现不佳的重复 take,直接帮你省掉挑素材的时间。
口癖与死寂清除
- :内置了 warm_cinematic(暖色电影感)、neutral_punch(中性增强)等预设,如果你有特殊要求,也可以自己写 ffmpeg 滤镜链。
自动调色
- :每一个切点都会自动加上 30 毫秒的淡入淡出,彻底告别切点爆音那种让人头疼的问题。
30ms 音频淡变
- :默认是“两词大写”这种短视频风格,但也支持长句自然显示、大字幕强调等自定义选项,字体、颜色、位置都能调。
烧录字幕
- :可以调用 HyperFrames、Remotion、Manim、PIL+ffmpeg 这些引擎来生成 B-roll 和动画卡片,而且是独立的子 Agent 并行生成,效率不错。
动画叠加
- :渲染完成后会自动检查切点跳帧、音频爆音、字幕遮挡、叠加层对齐这些问题,最多可以自动修复 3 次,省得你反复返工。
自评估循环
- :每次剪辑决策都会追加到
会话记忆
project.md文件里,下次再接续之前的工作时,它会保留之前的偏好和策略,不会失忆。
如何使用video-use
上手也不算复杂,按以下几个步骤操作就行:
- :在终端执行
克隆仓库
git clone https://github.com/browser-use/video-use ~/Developer/video-use,把项目代码下载到本地开发者目录。 - :进入项目目录后运行
安装依赖
uv sync或pip install -e .安装 Python 依赖,同时别忘了用brew install ffmpeg安装音视频处理工具,因为后面所有剪辑操作都离不开它。 - :复制环境变量模板文件
配置 API Key
cp .env.example .env,然后编辑.env文件,填入你的 ElevenLabs API Key,这是用来做音频转录服务的。 - :创建符号链接,把 video-use 注册到 Agent 的 skills 目录。比如如果你是 Claude Code 用户,就执行
注册 Skill
ln -sfn ~/Developer/video-use ~/.claude/skills/video-use。 - :进入你存放原始视频素材的文件夹,启动编程 Agent,对它说一句 “edit these into a launch video”,就会触发自动剪辑流程。
开始使用
video-use的核心优势
- :用自然语言描述需求,Agent 就能帮你跑完整个流程,不需要学习专业的剪辑软件操作。
对话式交互替代手动剪辑
- :不依赖官方开放的接口,只要有网页版的视频工具,理论上都能被 AI 驱动操控,灵活性很高。
通用兼容不受 API 限制
- :通过音频转录文本(大约 12KB)来替代逐帧的视觉分析,让 LLM 高效地“阅读”视频内容,而不是“观看”,成本自然就下来了。
极低 token 成本理解视频
- :口癖清除、调色、字幕、动画叠加这些重复性的工作,Agent 全包了,你只需要在关键策略上确认一下就行。
自动化机械劳动
- :剪辑规则固化在代码里,同类型的视频输出风格高度一致,不会出现人工操作时那种忽好忽坏的差异。
标准化输出可复现
- :渲染后 Agent 会自动检查跳帧、爆音、遮挡这些问题,还能自动修复,确保到用户手里的成片质量是过关的。
自评估质量保障
video-use的项目地址
- :https://github.com/browser-use/video-use
GitHub仓库
video-use的同类竞品对比
为了让你更直观地了解它的定位,我们拿它和另一个同类项目 OpenStoryline(来自小红书 Super Intelligence 团队 / FireRedTeam)做个对比:
| 维度 | video-use | OpenStoryline |
|---|---|---|
开发团队 |
Browser Use(海外) | 小红书 Super Intelligence / FireRedTeam(国内) |
开源协议 |
MIT | Apache-2.0 |
Stars |
13,749 | 2,817 |
核心定位 |
编程 Agent 对话式剪辑 raw footage | 意图驱动式视频创作,从素材搜索到成片 |
交互方式 |
命令行对话(Claude Code / Codex) | 自然语言对话 + Web 界面 + CLI |
内容来源 |
本地 raw footage(口播、访谈素材) | 支持本地素材 + 在线媒体搜索下载 |
智能脚本 |
基于音频转录文本理解内容 | 自动生成故事线、旁白、Few-shot 风格迁移 |
动画/特效 |
HyperFrames / Remotion / Manim / PIL | 内置 BGM 智能推荐、AI 转场生成、字体风格匹配 |
video-use的应用场景
这套工具最适用的场景其实很明确:
- :录了好几次的 raw footage,想快速剪成连贯的发布视频?它自动就把口癖和停顿清掉了。
技术博主口播剪辑
- :批量处理大量重复性剪辑任务,字幕、调色、动画叠加这些流程都能标准化执行。
教程制作团队
- :多个素材按策略自动拼接,统一视觉风格,还能生成配套的 B-roll 动画。
产品发布视频
- :自动识别最合适的 take,清除冗余内容,输出带字幕和淡变处理的成片。
访谈/播客后期
- :把剪辑流程从手动操作转为策略确认,释放更多时间,让你能专心在内容创作本身。
内容创作者标准化工作流