多角色人物对口型AI视频如何制作？制作对口型视频教程操作方法

来源：互联网时间：2026-06-05 07:09:31

来说说这个案例，一个多人对口型的AI视频是怎么做出来的。这里面其实有几个关键步骤，拆开来看就不复杂了。

主要靠两个工具来实现：即梦和可灵。一个是负责生成画面和视频，另一个对口型更灵活。下面我们就按流程走一遍。

单人对口型

先看第一个分镜：一个女生拿着手机在自拍Vlog。要拍出这种效果，提示词里得带上“第一视角”“自拍视角”这类关键词。画面比例建议用9:16或2:3竖屏。

举个例子，这样的提示词：

女大学生走在一条古老的山间小道上，正在自拍，短发，白色T恤，蓝色牛仔裤，刚下过小雨。

当然，想让提示词更专业，可以丢给大模型让它帮忙优化一下。它会生成一个细节更丰富的版本，效果也更好。

分镜一生图提示词

第一视角，第一人称自拍视角，正面面对镜头。一个20岁出头的中国女大学生，短发，白色T恤、蓝色牛仔裤，背着户外背包，正举着自拍杆对镜头灿烂微笑。她身处一条被薄雾笼罩的古旧山间石板路上，光线是柔和的漫射晨光，背景的绿色森林在浅景深中虚化。8K画质，细节极其丰富。

如果希望角色有特定的外观，也可以通过垫图的方式来生成。

这个镜头里，女生一边自拍一边走路说话，于是就需要对口型。目前主流的对口型方法有两种：一种是用即梦的上传图片对口型，另一种是可灵的上传视频对口型。区别在于，即梦的图片对口型不支持写提示词，无法控制角色的动作。因此这里选择可灵的视频对口型方案。

先把视频生成出来。把分镜一的图片上传到即梦或可灵进行图生视频。有一点要提醒：即梦即使是会员，生成的图片和视频默认会有左上角水印。如果介意，建议在可灵完成图片和视频的生成。

基于分镜一的图片，生成视频的提示词可以这样写：

镜头晃动，自拍视角，镜头跟随。一边朝镜头方向走路一边不停说话，另一只手偶尔比划动作。第5秒开始笑容渐渐消失，露出疑惑的表情，继续说话并左顾右盼，好像在寻找什么声音。

这里为什么这样写提示词？自即梦视频模型3.0开始就支持多镜头生成。设计上我们希望女主角在徒步过程中听到王维吟诗的声音，随后感到疑惑并寻找声音源头。所以在提示词里需要限定时间区间：前几秒正常徒步，后几秒寻找声音。框架定下来，动作、表情这些细节根据需要补充即可。

上面这个10秒的片段很好地表现了女主角从动作到表情的完整变化。给这段视频配音时，最好配一个9到10秒左右的音频。时间太短需要裁剪视频，太长则会被截断。

先到海螺AI（s://www.minimaxi.com/audio）生成配音。把台词输入，选一个喜欢的音色，点击生成，就能得到大约10秒的声音文件。

接下来去可灵（s://klingai.kuaishou.com）给视频配上这个声音。在生视频界面，先点左边的“对口型”选项，上传之前生成的视频片段。系统会自动跳转到编辑音频的窗口，上传配音并添加。音频会出现在左下方的轨道中，你可以拖动或裁剪，让音频对齐视频中角色说话的时间点。最后点击生成，等一两分钟就完成了。

多人对口型

再来说一下多人场景下的对口型。

上传一个含有多人的视频给可灵时，它会自动识别出画面中有几个角色。比如下面的例子里，可灵识别出有一个男性和一个女性。

如果要给女性配音，先选中她的头像，再上传她的配音文件。这样可灵就知道这个音频是配给那个女性的。在左下方的轨道区调整音频位置，比如让女性从第0秒说到第3秒，就把配音素材放在这个时间区间。

配音视频生成后保存。接着需要给同一个视频里的男性配音。把上一步生成（已包含女性配音）的视频上传进来，选中男性头像并上传他的配音。这里想让男性从第3秒说到第10秒，就把音频放在这个区间，同时别忘了打开视频原声（保留女性的配音）。点击生成即可。

核心逻辑是：第一次配音给女性，占据0到3秒；第二次配音给男性，从第3秒到第10秒，并保留上一步的原声。这才是多人配音的关键——时间线不能重叠。

其实，很多人觉得AI工具门槛高，一直犹豫不决。但真的动手试试看，你会发现并没有想象中那么难。只要一步一步跟着做，你也可以做出来。

多角色人物对口型AI视频如何制作？制作对口型视频教程操作方法

单人对口型

分镜一生图提示词

多人对口型

相关阅读

相关下载