首页 > 教程攻略 > ai教程 >多角色人物对口型AI视频如何制作?制作对口型视频教程操作方法

多角色人物对口型AI视频如何制作?制作对口型视频教程操作方法

来源:互联网 时间:2026-06-05 07:09:31

来说说这个案例,一个多人对口型的AI视频是怎么做出来的。这里面其实有几个关键步骤,拆开来看就不复杂了。

多角色人物对口型AI视频如何制作?制作对口型视频教程操作方法

主要靠两个工具来实现:即梦和可灵。一个是负责生成画面和视频,另一个对口型更灵活。下面我们就按流程走一遍。

单人对口型

先看第一个分镜:一个女生拿着手机在自拍Vlog。要拍出这种效果,提示词里得带上“第一视角”“自拍视角”这类关键词。画面比例建议用9:16或2:3竖屏。

举个例子,这样的提示词:

女大学生走在一条古老的山间小道上,正在自拍,短发,白色T恤,蓝色牛仔裤,刚下过小雨。

当然,想让提示词更专业,可以丢给大模型让它帮忙优化一下。它会生成一个细节更丰富的版本,效果也更好。

分镜一生图提示词

第一视角,第一人称自拍视角,正面面对镜头。一个20岁出头的中国女大学生,短发,白色T恤、蓝色牛仔裤,背着户外背包,正举着自拍杆对镜头灿烂微笑。她身处一条被薄雾笼罩的古旧山间石板路上,光线是柔和的漫射晨光,背景的绿色森林在浅景深中虚化。8K画质,细节极其丰富。

如果希望角色有特定的外观,也可以通过垫图的方式来生成。

这个镜头里,女生一边自拍一边走路说话,于是就需要对口型。目前主流的对口型方法有两种:一种是用即梦的上传图片对口型,另一种是可灵的上传视频对口型。区别在于,即梦的图片对口型不支持写提示词,无法控制角色的动作。因此这里选择可灵的视频对口型方案。

先把视频生成出来。把分镜一的图片上传到即梦或可灵进行图生视频。有一点要提醒:即梦即使是会员,生成的图片和视频默认会有左上角水印。如果介意,建议在可灵完成图片和视频的生成。

基于分镜一的图片,生成视频的提示词可以这样写:

镜头晃动,自拍视角,镜头跟随。一边朝镜头方向走路一边不停说话,另一只手偶尔比划动作。第5秒开始笑容渐渐消失,露出疑惑的表情,继续说话并左顾右盼,好像在寻找什么声音。

这里为什么这样写提示词?自即梦视频模型3.0开始就支持多镜头生成。设计上我们希望女主角在徒步过程中听到王维吟诗的声音,随后感到疑惑并寻找声音源头。所以在提示词里需要限定时间区间:前几秒正常徒步,后几秒寻找声音。框架定下来,动作、表情这些细节根据需要补充即可。

上面这个10秒的片段很好地表现了女主角从动作到表情的完整变化。给这段视频配音时,最好配一个9到10秒左右的音频。时间太短需要裁剪视频,太长则会被截断。

先到海螺AI(s://www.minimaxi.com/audio)生成配音。把台词输入,选一个喜欢的音色,点击生成,就能得到大约10秒的声音文件。

接下来去可灵(s://klingai.kuaishou.com)给视频配上这个声音。在生视频界面,先点左边的“对口型”选项,上传之前生成的视频片段。系统会自动跳转到编辑音频的窗口,上传配音并添加。音频会出现在左下方的轨道中,你可以拖动或裁剪,让音频对齐视频中角色说话的时间点。最后点击生成,等一两分钟就完成了。

多人对口型

再来说一下多人场景下的对口型。

上传一个含有多人的视频给可灵时,它会自动识别出画面中有几个角色。比如下面的例子里,可灵识别出有一个男性和一个女性。

如果要给女性配音,先选中她的头像,再上传她的配音文件。这样可灵就知道这个音频是配给那个女性的。在左下方的轨道区调整音频位置,比如让女性从第0秒说到第3秒,就把配音素材放在这个时间区间。

配音视频生成后保存。接着需要给同一个视频里的男性配音。把上一步生成(已包含女性配音)的视频上传进来,选中男性头像并上传他的配音。这里想让男性从第3秒说到第10秒,就把音频放在这个区间,同时别忘了打开视频原声(保留女性的配音)。点击生成即可。

核心逻辑是:第一次配音给女性,占据0到3秒;第二次配音给男性,从第3秒到第10秒,并保留上一步的原声。这才是多人配音的关键——时间线不能重叠。

其实,很多人觉得AI工具门槛高,一直犹豫不决。但真的动手试试看,你会发现并没有想象中那么难。只要一步一步跟着做,你也可以做出来。

相关下载