首页 > 教程攻略 > ai资讯 >ControlFoley - 小米开源的可控视频音效生成模型

ControlFoley - 小米开源的可控视频音效生成模型

来源:互联网 时间:2026-06-01 07:06:09

ControlFoley是什么

视频配音,或者说视频音效生成(V2A),一直是多模态内容创作中既关键又棘手的环节。你怎么让模型准确理解画面里木棍敲击的是木门还是铁桶,并且让声音正好落在敲击的那一帧上?更棘手的是,怎么让创作者告诉它“我要的不是这个声音,而是另一个特定的声音”?这个问题,小米开源的

ControlFoley

给出了一个相当漂亮的解决方案。

简单来说,ControlFoley是一个可控视频音效生成模型,它的核心价值在于解决了V2A领域一直以来的“可控性”难题。它一套模型统一支持三种不同的配音任务:

文本引导

文本控制

参考音频控制

。通过自研的时空音视频编码器CA V-MAE-ST、时间-音色解耦等一系列技术,它在语义对齐、时间同步和音质上都实现了全面提升。目前,它在多个公开基准测试中都达到了开源模型的SOTA水平,代码和模型权重也已经全部开放给社区。

ControlFoley的主要功能

ControlFoley的厉害之处,在于它把视频配音的控制权真正还给了创作者。具体看它支持的三种任务模式就很清楚了:

  • TV2A(文本引导视频配音)

    :这是最基础的模式。你给一个视频片段,再加一句文字描述(比如“这是一个沉重的铁门缓缓关闭的声音”),模型就能根据视频的节奏和文本的提示,生成与之同步的音效。文本在这里起到了补充画面语义、引导模型走向的作用。
  • TC-V2A(文本控制视频配音)

    :这个模式的“权限”更高。当你输入的文本意图和视频画面本身的语义发生冲突时,模型会

    优先服从文本的指令

    。比如,画面是有人在敲门,但你要求生成“敲击木桶”的声音,模型会忠实执行后者,同时确保声音的时间点依然和画面中敲击的动作同步。这才是真正的“控制”。
  • AC-V2A(参考音频控制视频配音)

    :这个模式则解决了“质感”问题。你上传一段参考音频(比如一段特定的鼓声),模型就能提取它的音色和风格,应用到视频所需的配音中,同时完全不破坏视频原有的节奏和动作同步性。

ControlFoley的技术原理

要实现上面这些精准的控制,背后有几点关键的技术设计值得关注。

首先是

联合视觉编码

。这里用到了自研的

CA V-MAE-ST

时空音视频编码器。和普通的图像理解不同,这个编码器的重点在于理解

音视频之间的时空对应关系

。说得通俗点,它不仅看懂了画面里的人在做什么动作,还理解了动作的节奏应该对应什么样的声音变化。再配合上经典的CLIP模型,两者各司其职,一个负责语义理解,一个负责时空同步,效果自然更上一层楼。

其次是

时间-音色解耦

。这可是AC-V2A模式的核心。当输入一段参考音频时,模型会做一件很聪明的事:

抑制掉

参考音频中蕴含的“时间信息”(比如原音频的节奏、停顿),只保留全局的“音色特征”(比如是木槌声还是金属撞击声)。这样一来,参考音频就不会干扰到模型根据视频画面生成的节奏,真正做到了“取其精华(音色),去其糟粕(节奏干扰)”。

最后是

模态鲁棒训练

。视频、文本、音频这三种模态在训练时不一定总是完整的。为了保证模型在任何组合下都能稳定输出,训练中引入了随机模态dropout机制,并强制拉近不同模态在表示空间中的距离。这让模型在面对“只有视频”、“视频+文本”等各种情况时,都能做出合理判断。

如何使用ControlFoley

如果你对这个模型感兴趣,想上手试试,流程其实很清晰:

  • 获取资源

    :直接去GitHub仓库下载代码和模型权重,或者更简单一点,先试试官方提供的在线Demo。
  • 环境配置

    :按照仓库的说明,配置好所需的Python环境和音视频处理库。
  • 选择任务模式并准备输入

    :根据你的创作需求,从TV2A、TC-V2A、AC-V2A中选一个。导入视频文件,再根据需要附加文本提示或参考音频。
  • 执行生成和导出

    :运行推理脚本,ControlFoley便会输出生成好的音频。最后,通过VAE解码器和声码器导出最终音轨,并与原始视频合成,一段受你控制的配音作品就完成了。

ControlFoley的核心优势

综合来看,ControlFoley的核心优势非常突出:

  • 统一框架,降本增效

    :一个模型搞定三种任务,创作者再也不用为了不同的需求切换多个工具。
  • 音画同步,精准对齐

    :得益于CA V-MAE-ST编码器的时序理解能力,它在音画对齐的精度上远超现有的开源竞品。
  • 音色可控,风格随心

    :时间-音色解耦技术,让参考音频的控制从“复制粘贴”变成了精准的“风格迁移”,不破坏原作节奏。
  • 鲁棒稳定,多模兼容

    :无论输入是单模态还是多模态,模型都能稳定输出。
  • 开源SOTA,实至名归

    :在VGGSound-Test、Kling-Audio-Eval等多个主流benchmark上,它的语义对齐和声音质量都做到了开源最优。

ControlFoley的项目地址

以下是相关的官方资源入口,供查阅:

  • 项目官网

    :https://yjx-research.github.io/ControlFoley_web_page/
  • GitHub仓库

    :https://github.com/xiaomi-research/controlfoley
  • HuggingFace模型库

    :https://huggingface.co/YJX-Xiaomi/ControlFoley
  • arXiv技术论文

    :https://arxiv.org/abs/2604.15086

ControlFoley的同类竞品对比

为了更直观地理解它的领先之处,我们与两个主要竞品(MMAudio和HunyuanVideo-Foley)做了个对比:

对比维度ControlFoleyMMAudioHunyuanVideo-Foley

任务覆盖

统一支持 TV2A / TC-V2A / AC-V2A 三类可控任务主要支持 TV2A 基础视频配音主要支持 TV2A 基础视频配音

文本冲突处理

强:冲突场景下 DeSync 仅 0.36-0.38,优先遵循文本意图弱:文本易被视觉信息覆盖弱:文本控制能力有限

参考音频控制

支持,时间-音色解耦不破坏同步不支持不支持

音画同步

优:CA V-MAE-ST 增强时空对应

开源状态

代码、权重、技术报告全开源开源开源

ControlFoley的应用场景

最后聊几个非常具体、非常接地气的应用场景:

  • 短视频创作

    :给一段无声的空镜素材配上符合自己意图的音效,比如给慢动作的咖啡流注配一个更“醇厚”的声音,而不是模型默认猜出来的流水声。
  • 动画与游戏

    :在一些游戏或动画项目中,为了营造特定氛围,需要将角色攻击时的“拳击”声替换成“重锤”声,ControlFoley可以精准地在保留动作节奏的同时,替换掉音色风格。
  • 影视后期与广告营销

    :可以基于一段品牌专属的音频样本,为整个系列视频统一音效风格,实现高度一致的声音品牌化。
  • 自媒体直播切片

    :为二创视频补充更加沉浸、更符合内容调性的多模态音频,提升作品的完整度和观感。

总而言之,ControlFoley的出现,让视频音效生成从“模型猜”进化到了“创作者定”的阶段。它把控制权交还给了人类,这可能是未来AIGC工具发展的一个重要方向。