首页 > 教程攻略 > ai资讯 >ACTalker：开源多模态说话人视频生成框架，精准驱动面部表情与唇形同步

ACTalker：开源多模态说话人视频生成框架，精准驱动面部表情与唇形同步

来源：互联网时间：2026-06-10 12:57:09

数字人领域最近又有了新的突破——由香港科技大学、腾讯、清华大学联合研发的ACTalker，正在重新定义说话人头像生成的标准。这是一套基于视频扩散模型的端到端框架，最大的亮点在于多信号协同控制能力。简单来说，它可以通过音频、面部表情等多模态信号，精准驱动生成音画高度同步、表情自然逼真的虚拟人像视频。传统数字人生成中常见的动作冲突、唇形错位、身份漂移等痛点，在这套方案里得到了有效解决。可以说，这是当前说话人视频生成领域最具标杆意义的一个开源方案。

一、ACTalker是什么

ACTalker

是由香港科技大学、腾讯、清华大学联合研发的

端到端说话人头像（Talking Head）视频生成框架

，基于视频扩散模型构建，主打

多信号协同控制

能力。该框架可通过音频、面部表情等多模态信号，精准驱动生成音画高度同步、表情自然逼真的虚拟人像视频，解决传统数字人生成中动作冲突、唇形错位、身份漂移等痛点，是当前说话人视频生成领域的标杆性开源方案。

二、功能特色

1. 多信号灵活控制

单信号驱动
：仅输入音频生成匹配唇形与表情的视频，或仅输入表情参数生成对应面部动画。
多信号组合驱动
：支持音频+表情、音频+头部姿态等组合输入，不同信号独立控制面部不同区域（如音频控嘴部、表情控眉眼），
无动作冲突
。
动态门控调节
：推理时可手动开启/关闭各信号通道，灵活调整驱动权重，适配不同风格需求。

2. 高质量视频生成

超自然表情与动作
：生成视频面部表情细腻、头部运动自然，眨眼、嘴角微动等细节还原度高。
精准音画同步
：在CelebV-HQ数据集上实现
Sync-C=5.317、Sync-D=7.869
的同步精度，唇形与音频完全对齐。
身份一致性强
：全程保留输入人像的身份特征，无明显面部扭曲或身份漂移问题。

3. 高效轻量化推理

并行Mamba架构
：采用选择性状态空间模型，相比传统Transformer，
算力消耗降低、推理速度提升
，兼顾效率与效果。
低显存需求
：基础推理仅需
8GB显存
，支持本地部署，无需高端算力支持。

4. 多场景适配能力

支持
2D人像、真人照片、卡通形象
等多种输入类型。
输出视频适配
虚拟主播、数字人直播、短视频配音、智能客服
等多元场景。

五、使用方法

1. 环境准备

（1）硬件要求

最低：NVIDIA GPU（8GB显存）、16GB内存、50GB存储
推荐：NVIDIA RTX 3090/4090、32GB内存、100GB+高速存储

（2）软件依赖

#创建虚拟环境condacreate-nactalkerpython=3.9condaactivateactalker#安装核心依赖pipinstalltorch==2.0.1torchvision==0.15.2pipinstallmamba-ssm==1.0.1pipinstalldiffusers==0.18.2transformers==4.28.1pipinstallopencv-python==4.7.0.72ffmpeg-python==0.2.0

2. 项目部署

#克隆仓库gitclonehttps://github.com/harlanhong/ACTalker.gitcdACTalker#下载预训练权重（自动脚本）pythondownload_weights.py#启动WebUI（可视化界面）pythonapp.py#启动命令行模式pythoninference.py--configconfigs/infer.yaml

3. 快速生成流程

输入准备
：上传1张清晰正面人像（照片/卡通图）、1段10-60秒音频（中文/英文均可）。
参数设置
：选择驱动模式（仅音频/音频+表情）、输出分辨率（512×512/768×768）、帧率（25fps/30fps）。
生成视频
：点击“生成”，等待1-3分钟（视硬件配置），生成后自动预览并保存。

4. 高级使用（自定义表情驱动）

准备表情参数文件（JSON格式，含3D面部关键点坐标）。
命令行指定表情输入：

pythoninference.py--audioinput/audio.wa v--imageinput/portrait.jpg--expressioninput/expr.json

六、竞品对比

选取行业主流的

SadTalker、OmniTalker

与ACTalker对比，核心维度如下：

1. 核心对比表

对比维度	ACTalker（港科大/腾讯/清华）	SadTalker（西安交大）	OmniTalker（阿里通义）
核心架构	并行Mamba+动态门控	3DMM+条件VAE	Thinker-Talker双模块+TMRoPE
驱动信号	音频/表情/组合（多区域分控）	仅音频（单信号驱动）	文本/音频/视频（多模态输入）
唇形同步精度	Sync-C=5.317（极高）	中等（易出现唇形错位）	高（误差±40ms）
面部表情丰富度	高（眉眼/嘴角/下颌精细化）	中等（表情单一、头部动作僵硬）	高（但易丢失身份细节）
身份一致性	极强（全程保留特征）	强（轻微扭曲）	中等（高动态下易漂移）
推理速度	快（Mamba轻量化）	中等	快（流式生成，2秒响应）
显存需求	8GB（最低）	6GB（最低）	10GB+（最低）
开源状态	完全开源（GitHub）	完全开源（GitHub）	闭源（仅在线体验）
核心优势	多信号分控、同步精度高、开源	部署简单、低显存、易上手	多模态输入、实时交互、商用稳定

2. 核心差异总结

ACTalker
：主打
多信号精准控制+极致同步精度
，开源且性能均衡，适合技术玩家与商用二次开发。
SadTalker
：主打
轻量化+易部署
，仅支持音频驱动，适合个人简单创作，表情细节较弱。
OmniTalker
：主打
多模态输入+实时交互
，闭源商用，适合企业级直播场景，显存需求高。

ACTalker：开源多模态说话人视频生成框架，精准驱动面部表情与唇形同步

七、常见问题解答

Q：生成视频唇形与音频不同步怎么办？

A：优先检查音频质量，确保无背景噪音、采样率为16kHz；其次在参数设置中调高“唇形同步权重”，降低头部运动幅度；最后更新预训练权重至最新版，修复同步算法bug。

Q：生成视频面部扭曲、身份丢失如何解决？

A：输入人像需为

正面清晰无遮挡

照片，避免侧脸、模糊、强美颜图片；推理时选择“身份保护模式”，降低表情驱动强度；使用更高分辨率输入（512×512以上）。

Q：部署时出现CUDA out of memory报错？

A：降低输出分辨率至512×512、关闭“高清细节增强”功能；使用RTX 3090及以上显卡，或切换至CPU模式（速度较慢）；关闭后台占用显存的程序。

Q：支持中文/英文以外的小语种音频吗？

A：支持，但小语种同步精度略低于中英；建议使用

16kHz采样率、清晰无口音

的音频；可通过微调模型适配特定语种，官方提供微调教程。

Q：可以生成长时间（5分钟以上）视频吗？

A：支持，但长视频易出现轻微抖动；建议分段生成（每段1-2分钟）后拼接；开启“长序列稳定模式”，减少帧间抖动。

Q：是否支持商用？需要授权吗？

A：完全开源，

免费商用

，无需授权；但禁止用于违法、侵权、换脸等违规场景；二次开发需注明原项目来源。

八、相关链接

项目GitHub仓库：https://github.com/harlanhong/ACTalker
项目主页：https://harlanhong.github.io/publications/actalker/index.html
技术论文（arXiv）：https://arxiv.org/abs/2504.02542

九、总结

ACTalker 是一款由港科大、腾讯、清华联合打造的

开源多模态说话人视频生成框架

，凭借并行Mamba架构、动态门控融合、多信号分控等核心技术，实现了

音画高度同步、表情细腻自然、身份稳定一致

的生成效果。相比SadTalker、OmniTalker等竞品，ACTalker 兼顾性能、灵活性与开源友好性，适配虚拟主播、短视频创作、智能客服等多元场景，为数字人内容创作提供了低成本、高性能的技术方案。

ACTalker：开源多模态说话人视频生成框架，精准驱动面部表情与唇形同步

一、ACTalker是什么

ACTalker

端到端说话人头像（Talking Head）视频生成框架

多信号协同控制

二、功能特色

1. 多信号灵活控制

单信号驱动

多信号组合驱动

无动作冲突

动态门控调节

2. 高质量视频生成

超自然表情与动作

精准音画同步

Sync-C=5.317、Sync-D=7.869

身份一致性强

3. 高效轻量化推理

并行Mamba架构

算力消耗降低、推理速度提升

低显存需求

8GB显存

4. 多场景适配能力

2D人像、真人照片、卡通形象

虚拟主播、数字人直播、短视频配音、智能客服

五、使用方法

1. 环境准备

（1）硬件要求

（2）软件依赖

2. 项目部署

3. 快速生成流程

输入准备

参数设置

生成视频

4. 高级使用（自定义表情驱动）

六、竞品对比

SadTalker、OmniTalker

1. 核心对比表

2. 核心差异总结

ACTalker

多信号精准控制+极致同步精度

SadTalker

轻量化+易部署

OmniTalker

多模态输入+实时交互

七、常见问题解答

Q：生成视频唇形与音频不同步怎么办？

Q：生成视频面部扭曲、身份丢失如何解决？

正面清晰无遮挡

Q：部署时出现CUDA out of memory报错？

Q：支持中文/英文以外的小语种音频吗？

16kHz采样率、清晰无口音

Q：可以生成长时间（5分钟以上）视频吗？

Q：是否支持商用？需要授权吗？

免费商用

八、相关链接

九、总结

开源多模态说话人视频生成框架

音画高度同步、表情细腻自然、身份稳定一致

相关阅读

相关下载