ACTalker:开源多模态说话人视频生成框架,精准驱动面部表情与唇形同步
数字人领域最近又有了新的突破——由香港科技大学、腾讯、清华大学联合研发的ACTalker,正在重新定义说话人头像生成的标准。这是一套基于视频扩散模型的端到端框架,最大的亮点在于多信号协同控制能力。简单来说,它可以通过音频、面部表情等多模态信号,精准驱动生成音画高度同步、表情自然逼真的虚拟人像视频。传统数字人生成中常见的动作冲突、唇形错位、身份漂移等痛点,在这套方案里得到了有效解决。可以说,这是当前说话人视频生成领域最具标杆意义的一个开源方案。
一、ACTalker是什么
ACTalker
端到端说话人头像(Talking Head)视频生成框架
多信号协同控制
二、功能特色
1. 多信号灵活控制
- :仅输入音频生成匹配唇形与表情的视频,或仅输入表情参数生成对应面部动画。
单信号驱动
- :支持音频+表情、音频+头部姿态等组合输入,不同信号独立控制面部不同区域(如音频控嘴部、表情控眉眼),
多信号组合驱动
。无动作冲突
- :推理时可手动开启/关闭各信号通道,灵活调整驱动权重,适配不同风格需求。
动态门控调节
2. 高质量视频生成
- :生成视频面部表情细腻、头部运动自然,眨眼、嘴角微动等细节还原度高。
超自然表情与动作
- :在CelebV-HQ数据集上实现
精准音画同步
的同步精度,唇形与音频完全对齐。Sync-C=5.317、Sync-D=7.869
- :全程保留输入人像的身份特征,无明显面部扭曲或身份漂移问题。
身份一致性强
3. 高效轻量化推理
- :采用选择性状态空间模型,相比传统Transformer,
并行Mamba架构
,兼顾效率与效果。算力消耗降低、推理速度提升
- :基础推理仅需
低显存需求
,支持本地部署,无需高端算力支持。8GB显存
4. 多场景适配能力
支持
等多种输入类型。2D人像、真人照片、卡通形象
输出视频适配
等多元场景。虚拟主播、数字人直播、短视频配音、智能客服

五、使用方法
1. 环境准备
(1)硬件要求
最低:NVIDIA GPU(8GB显存)、16GB内存、50GB存储
推荐:NVIDIA RTX 3090/4090、32GB内存、100GB+高速存储
(2)软件依赖
#创建虚拟环境condacreate-nactalkerpython=3.9condaactivateactalker#安装核心依赖pipinstalltorch==2.0.1torchvision==0.15.2pipinstallmamba-ssm==1.0.1pipinstalldiffusers==0.18.2transformers==4.28.1pipinstallopencv-python==4.7.0.72ffmpeg-python==0.2.0
2. 项目部署
#克隆仓库gitclonehttps://github.com/harlanhong/ACTalker.gitcdACTalker#下载预训练权重(自动脚本)pythondownload_weights.py#启动WebUI(可视化界面)pythonapp.py#启动命令行模式pythoninference.py--configconfigs/infer.yaml
3. 快速生成流程
- :上传1张清晰正面人像(照片/卡通图)、1段10-60秒音频(中文/英文均可)。
输入准备
- :选择驱动模式(仅音频/音频+表情)、输出分辨率(512×512/768×768)、帧率(25fps/30fps)。
参数设置
- :点击“生成”,等待1-3分钟(视硬件配置),生成后自动预览并保存。
生成视频
4. 高级使用(自定义表情驱动)
准备表情参数文件(JSON格式,含3D面部关键点坐标)。
命令行指定表情输入:
pythoninference.py--audioinput/audio.wa v--imageinput/portrait.jpg--expressioninput/expr.json
六、竞品对比
选取行业主流的
SadTalker、OmniTalker
1. 核心对比表
| 对比维度 | ACTalker(港科大/腾讯/清华) | SadTalker(西安交大) | OmniTalker(阿里通义) |
|---|---|---|---|
| 核心架构 | 并行Mamba+动态门控 | 3DMM+条件VAE | Thinker-Talker双模块+TMRoPE |
| 驱动信号 | 音频/表情/组合(多区域分控) | 仅音频(单信号驱动) | 文本/音频/视频(多模态输入) |
| 唇形同步精度 | Sync-C=5.317(极高) | 中等(易出现唇形错位) | 高(误差±40ms) |
| 面部表情丰富度 | 高(眉眼/嘴角/下颌精细化) | 中等(表情单一、头部动作僵硬) | 高(但易丢失身份细节) |
| 身份一致性 | 极强(全程保留特征) | 强(轻微扭曲) | 中等(高动态下易漂移) |
| 推理速度 | 快(Mamba轻量化) | 中等 | 快(流式生成,2秒响应) |
| 显存需求 | 8GB(最低) | 6GB(最低) | 10GB+(最低) |
| 开源状态 | 完全开源(GitHub) | 完全开源(GitHub) | 闭源(仅在线体验) |
| 核心优势 | 多信号分控、同步精度高、开源 | 部署简单、低显存、易上手 | 多模态输入、实时交互、商用稳定 |
2. 核心差异总结
- :主打
ACTalker
,开源且性能均衡,适合技术玩家与商用二次开发。多信号精准控制+极致同步精度
- :主打
SadTalker
,仅支持音频驱动,适合个人简单创作,表情细节较弱。轻量化+易部署
- :主打
OmniTalker
,闭源商用,适合企业级直播场景,显存需求高。多模态输入+实时交互

七、常见问题解答
Q:生成视频唇形与音频不同步怎么办?
A:优先检查音频质量,确保无背景噪音、采样率为16kHz;其次在参数设置中调高“唇形同步权重”,降低头部运动幅度;最后更新预训练权重至最新版,修复同步算法bug。
Q:生成视频面部扭曲、身份丢失如何解决?
A:输入人像需为
正面清晰无遮挡
Q:部署时出现CUDA out of memory报错?
A:降低输出分辨率至512×512、关闭“高清细节增强”功能;使用RTX 3090及以上显卡,或切换至CPU模式(速度较慢);关闭后台占用显存的程序。
Q:支持中文/英文以外的小语种音频吗?
A:支持,但小语种同步精度略低于中英;建议使用
16kHz采样率、清晰无口音
Q:可以生成长时间(5分钟以上)视频吗?
A:支持,但长视频易出现轻微抖动;建议分段生成(每段1-2分钟)后拼接;开启“长序列稳定模式”,减少帧间抖动。
Q:是否支持商用?需要授权吗?
A:完全开源,
免费商用
八、相关链接
项目GitHub仓库:https://github.com/harlanhong/ACTalker
项目主页:https://harlanhong.github.io/publications/actalker/index.html
技术论文(arXiv):https://arxiv.org/abs/2504.02542
九、总结
ACTalker 是一款由港科大、腾讯、清华联合打造的