首页 > 教程攻略 > ai资讯 >ControlFoley - 小米开源的可控视频音效生成模型

ControlFoley - 小米开源的可控视频音效生成模型

来源：互联网时间：2026-06-01 07:06:09

ControlFoley是什么

视频配音，或者说视频音效生成（V2A），一直是多模态内容创作中既关键又棘手的环节。你怎么让模型准确理解画面里木棍敲击的是木门还是铁桶，并且让声音正好落在敲击的那一帧上？更棘手的是，怎么让创作者告诉它“我要的不是这个声音，而是另一个特定的声音”？这个问题，小米开源的

ControlFoley

给出了一个相当漂亮的解决方案。

简单来说，ControlFoley是一个可控视频音效生成模型，它的核心价值在于解决了V2A领域一直以来的“可控性”难题。它一套模型统一支持三种不同的配音任务：

文本引导

、

文本控制

和

参考音频控制

。通过自研的时空音视频编码器CA V-MAE-ST、时间-音色解耦等一系列技术，它在语义对齐、时间同步和音质上都实现了全面提升。目前，它在多个公开基准测试中都达到了开源模型的SOTA水平，代码和模型权重也已经全部开放给社区。

ControlFoley的主要功能

ControlFoley的厉害之处，在于它把视频配音的控制权真正还给了创作者。具体看它支持的三种任务模式就很清楚了：

TV2A（文本引导视频配音）
：这是最基础的模式。你给一个视频片段，再加一句文字描述（比如“这是一个沉重的铁门缓缓关闭的声音”），模型就能根据视频的节奏和文本的提示，生成与之同步的音效。文本在这里起到了补充画面语义、引导模型走向的作用。
TC-V2A（文本控制视频配音）
：这个模式的“权限”更高。当你输入的文本意图和视频画面本身的语义发生冲突时，模型会
优先服从文本的指令
。比如，画面是有人在敲门，但你要求生成“敲击木桶”的声音，模型会忠实执行后者，同时确保声音的时间点依然和画面中敲击的动作同步。这才是真正的“控制”。
AC-V2A（参考音频控制视频配音）
：这个模式则解决了“质感”问题。你上传一段参考音频（比如一段特定的鼓声），模型就能提取它的音色和风格，应用到视频所需的配音中，同时完全不破坏视频原有的节奏和动作同步性。

ControlFoley的技术原理

要实现上面这些精准的控制，背后有几点关键的技术设计值得关注。

首先是

联合视觉编码

。这里用到了自研的

CA V-MAE-ST

时空音视频编码器。和普通的图像理解不同，这个编码器的重点在于理解

音视频之间的时空对应关系

。说得通俗点，它不仅看懂了画面里的人在做什么动作，还理解了动作的节奏应该对应什么样的声音变化。再配合上经典的CLIP模型，两者各司其职，一个负责语义理解，一个负责时空同步，效果自然更上一层楼。

其次是

时间-音色解耦

。这可是AC-V2A模式的核心。当输入一段参考音频时，模型会做一件很聪明的事：

抑制掉

参考音频中蕴含的“时间信息”（比如原音频的节奏、停顿），只保留全局的“音色特征”（比如是木槌声还是金属撞击声）。这样一来，参考音频就不会干扰到模型根据视频画面生成的节奏，真正做到了“取其精华（音色），去其糟粕（节奏干扰）”。

最后是

模态鲁棒训练

。视频、文本、音频这三种模态在训练时不一定总是完整的。为了保证模型在任何组合下都能稳定输出，训练中引入了随机模态dropout机制，并强制拉近不同模态在表示空间中的距离。这让模型在面对“只有视频”、“视频+文本”等各种情况时，都能做出合理判断。

如何使用ControlFoley

如果你对这个模型感兴趣，想上手试试，流程其实很清晰：

获取资源
：直接去GitHub仓库下载代码和模型权重，或者更简单一点，先试试官方提供的在线Demo。
环境配置
：按照仓库的说明，配置好所需的Python环境和音视频处理库。
选择任务模式并准备输入
：根据你的创作需求，从TV2A、TC-V2A、AC-V2A中选一个。导入视频文件，再根据需要附加文本提示或参考音频。
执行生成和导出
：运行推理脚本，ControlFoley便会输出生成好的音频。最后，通过VAE解码器和声码器导出最终音轨，并与原始视频合成，一段受你控制的配音作品就完成了。

ControlFoley的核心优势

综合来看，ControlFoley的核心优势非常突出：

统一框架，降本增效
：一个模型搞定三种任务，创作者再也不用为了不同的需求切换多个工具。
音画同步，精准对齐
：得益于CA V-MAE-ST编码器的时序理解能力，它在音画对齐的精度上远超现有的开源竞品。
音色可控，风格随心
：时间-音色解耦技术，让参考音频的控制从“复制粘贴”变成了精准的“风格迁移”，不破坏原作节奏。
鲁棒稳定，多模兼容
：无论输入是单模态还是多模态，模型都能稳定输出。
开源SOTA，实至名归
：在VGGSound-Test、Kling-Audio-Eval等多个主流benchmark上，它的语义对齐和声音质量都做到了开源最优。

ControlFoley的项目地址

以下是相关的官方资源入口，供查阅：

项目官网
：https://yjx-research.github.io/ControlFoley_web_page/
GitHub仓库
：https://github.com/xiaomi-research/controlfoley
HuggingFace模型库
：https://huggingface.co/YJX-Xiaomi/ControlFoley
arXiv技术论文
：https://arxiv.org/abs/2604.15086

ControlFoley的同类竞品对比

为了更直观地理解它的领先之处，我们与两个主要竞品（MMAudio和HunyuanVideo-Foley）做了个对比：

对比维度	ControlFoley	MMAudio	HunyuanVideo-Foley
任务覆盖	统一支持 TV2A / TC-V2A / AC-V2A 三类可控任务	主要支持 TV2A 基础视频配音	主要支持 TV2A 基础视频配音
文本冲突处理	强：冲突场景下 DeSync 仅 0.36-0.38，优先遵循文本意图	弱：文本易被视觉信息覆盖	弱：文本控制能力有限
参考音频控制	支持，时间-音色解耦不破坏同步	不支持	不支持
音画同步	优：CA V-MAE-ST 增强时空对应	良	良
开源状态	代码、权重、技术报告全开源	开源	开源

ControlFoley的应用场景

最后聊几个非常具体、非常接地气的应用场景：

短视频创作
：给一段无声的空镜素材配上符合自己意图的音效，比如给慢动作的咖啡流注配一个更“醇厚”的声音，而不是模型默认猜出来的流水声。
动画与游戏
：在一些游戏或动画项目中，为了营造特定氛围，需要将角色攻击时的“拳击”声替换成“重锤”声，ControlFoley可以精准地在保留动作节奏的同时，替换掉音色风格。
影视后期与广告营销
：可以基于一段品牌专属的音频样本，为整个系列视频统一音效风格，实现高度一致的声音品牌化。
自媒体直播切片
：为二创视频补充更加沉浸、更符合内容调性的多模态音频，提升作品的完整度和观感。

总而言之，ControlFoley的出现，让视频音效生成从“模型猜”进化到了“创作者定”的阶段。它把控制权交还给了人类，这可能是未来AIGC工具发展的一个重要方向。

ControlFoley - 小米开源的可控视频音效生成模型

ControlFoley是什么

ControlFoley

文本引导

文本控制

参考音频控制

ControlFoley的主要功能

TV2A（文本引导视频配音）

TC-V2A（文本控制视频配音）

优先服从文本的指令

AC-V2A（参考音频控制视频配音）

ControlFoley的技术原理

联合视觉编码

CA V-MAE-ST

音视频之间的时空对应关系

时间-音色解耦

抑制掉

模态鲁棒训练

如何使用ControlFoley

获取资源

环境配置

选择任务模式并准备输入

执行生成和导出

ControlFoley的核心优势

统一框架，降本增效

音画同步，精准对齐

音色可控，风格随心

鲁棒稳定，多模兼容

开源SOTA，实至名归

ControlFoley的项目地址

项目官网

GitHub仓库

HuggingFace模型库

arXiv技术论文

ControlFoley的同类竞品对比

任务覆盖

文本冲突处理

参考音频控制

音画同步

开源状态

ControlFoley的应用场景

短视频创作

动画与游戏

影视后期与广告营销

自媒体直播切片

相关阅读

相关下载