ControlFoley - 小米开源的可控视频音效生成模型
来源:互联网
时间:2026-06-01 07:06:09
ControlFoley是什么
视频配音,或者说视频音效生成(V2A),一直是多模态内容创作中既关键又棘手的环节。你怎么让模型准确理解画面里木棍敲击的是木门还是铁桶,并且让声音正好落在敲击的那一帧上?更棘手的是,怎么让创作者告诉它“我要的不是这个声音,而是另一个特定的声音”?这个问题,小米开源的
ControlFoley
简单来说,ControlFoley是一个可控视频音效生成模型,它的核心价值在于解决了V2A领域一直以来的“可控性”难题。它一套模型统一支持三种不同的配音任务:
文本引导
文本控制
参考音频控制

ControlFoley的主要功能
ControlFoley的厉害之处,在于它把视频配音的控制权真正还给了创作者。具体看它支持的三种任务模式就很清楚了:
- :这是最基础的模式。你给一个视频片段,再加一句文字描述(比如“这是一个沉重的铁门缓缓关闭的声音”),模型就能根据视频的节奏和文本的提示,生成与之同步的音效。文本在这里起到了补充画面语义、引导模型走向的作用。
TV2A(文本引导视频配音)
- :这个模式的“权限”更高。当你输入的文本意图和视频画面本身的语义发生冲突时,模型会
TC-V2A(文本控制视频配音)
。比如,画面是有人在敲门,但你要求生成“敲击木桶”的声音,模型会忠实执行后者,同时确保声音的时间点依然和画面中敲击的动作同步。这才是真正的“控制”。优先服从文本的指令
- :这个模式则解决了“质感”问题。你上传一段参考音频(比如一段特定的鼓声),模型就能提取它的音色和风格,应用到视频所需的配音中,同时完全不破坏视频原有的节奏和动作同步性。
AC-V2A(参考音频控制视频配音)
ControlFoley的技术原理
要实现上面这些精准的控制,背后有几点关键的技术设计值得关注。
首先是
联合视觉编码
CA V-MAE-ST
音视频之间的时空对应关系
其次是
时间-音色解耦
抑制掉
最后是
模态鲁棒训练
如何使用ControlFoley
如果你对这个模型感兴趣,想上手试试,流程其实很清晰:
- :直接去GitHub仓库下载代码和模型权重,或者更简单一点,先试试官方提供的在线Demo。
获取资源
- :按照仓库的说明,配置好所需的Python环境和音视频处理库。
环境配置
- :根据你的创作需求,从TV2A、TC-V2A、AC-V2A中选一个。导入视频文件,再根据需要附加文本提示或参考音频。
选择任务模式并准备输入
- :运行推理脚本,ControlFoley便会输出生成好的音频。最后,通过VAE解码器和声码器导出最终音轨,并与原始视频合成,一段受你控制的配音作品就完成了。
执行生成和导出
ControlFoley的核心优势
综合来看,ControlFoley的核心优势非常突出:
- :一个模型搞定三种任务,创作者再也不用为了不同的需求切换多个工具。
统一框架,降本增效
- :得益于CA V-MAE-ST编码器的时序理解能力,它在音画对齐的精度上远超现有的开源竞品。
音画同步,精准对齐
- :时间-音色解耦技术,让参考音频的控制从“复制粘贴”变成了精准的“风格迁移”,不破坏原作节奏。
音色可控,风格随心
- :无论输入是单模态还是多模态,模型都能稳定输出。
鲁棒稳定,多模兼容
- :在VGGSound-Test、Kling-Audio-Eval等多个主流benchmark上,它的语义对齐和声音质量都做到了开源最优。
开源SOTA,实至名归
ControlFoley的项目地址
以下是相关的官方资源入口,供查阅:
- :https://yjx-research.github.io/ControlFoley_web_page/
项目官网
- :https://github.com/xiaomi-research/controlfoley
GitHub仓库
- :https://huggingface.co/YJX-Xiaomi/ControlFoley
HuggingFace模型库
- :https://arxiv.org/abs/2604.15086
arXiv技术论文
ControlFoley的同类竞品对比
为了更直观地理解它的领先之处,我们与两个主要竞品(MMAudio和HunyuanVideo-Foley)做了个对比:
| 对比维度 | ControlFoley | MMAudio | HunyuanVideo-Foley |
|---|---|---|---|
任务覆盖 | 统一支持 TV2A / TC-V2A / AC-V2A 三类可控任务 | 主要支持 TV2A 基础视频配音 | 主要支持 TV2A 基础视频配音 |
文本冲突处理 | 强:冲突场景下 DeSync 仅 0.36-0.38,优先遵循文本意图 | 弱:文本易被视觉信息覆盖 | 弱:文本控制能力有限 |
参考音频控制 | 支持,时间-音色解耦不破坏同步 | 不支持 | 不支持 |
音画同步 | 优:CA V-MAE-ST 增强时空对应 | 良 | 良 |
开源状态 | 代码、权重、技术报告全开源 | 开源 | 开源 |
ControlFoley的应用场景
最后聊几个非常具体、非常接地气的应用场景:
- :给一段无声的空镜素材配上符合自己意图的音效,比如给慢动作的咖啡流注配一个更“醇厚”的声音,而不是模型默认猜出来的流水声。
短视频创作
- :在一些游戏或动画项目中,为了营造特定氛围,需要将角色攻击时的“拳击”声替换成“重锤”声,ControlFoley可以精准地在保留动作节奏的同时,替换掉音色风格。
动画与游戏
- :可以基于一段品牌专属的音频样本,为整个系列视频统一音效风格,实现高度一致的声音品牌化。
影视后期与广告营销
- :为二创视频补充更加沉浸、更符合内容调性的多模态音频,提升作品的完整度和观感。
自媒体直播切片
总而言之,ControlFoley的出现,让视频音效生成从“模型猜”进化到了“创作者定”的阶段。它把控制权交还给了人类,这可能是未来AIGC工具发展的一个重要方向。