首页 > 教程攻略 > ai资讯 >CameraSquad：多视角一致——视频世界模型的空间智能新范式

CameraSquad：多视角一致——视频世界模型的空间智能新范式

来源：互联网时间：2026-06-22 16:19:53

你有没有遇到过这种情况：明明是一段视频，想从不同角度看同一个场景，结果换个视角，里面的人就"变脸"了——短发变成长发，左跳变成右跳？想做4D重建需要多视角监督，但不同轨迹串行推理的结果总是"对不上号"？其实，如果能用一段输入视频和几组相机参数，一次性并行生成多条视角一致、能反投影出精细动态3D点云的视频，那离真正的空间智能就不远了。

这个愿景，如今被CameraSquad变成了现实。

最近，中国科学院大学高林研究员团队联合卡迪夫大学、香港科技大学和快手可灵团队，提出了CameraSquad，一种面向多轨迹并行生成的相机可控视频生成方法。该成果已被ACM SIGGRAPH 2026录用。做法的核心是：基于Wan2.2视频扩散模型，构建一个支持多轨迹并行生成、同时具备精确相机控制与跨视角内容一致性的框架。给定一段视频和多组相机参数，CameraSquad能一次性并行生成多条空间一致的视频，为4D重建等下游空间智能任务提供高质量的3D世界状态。

图 1 CameraSquad 多轨迹生成示例

图 2 多视角内容一致的点云反投影结果

Part 1 研究背景

这几年，相机可控视频生成成了视频生成与空间智能的热门方向。现有方法大致分两类：隐式控制，比如用Plücker坐标建模相机轨迹的CameraCtrl、基于外参矩阵做运动控制的MotionCtrl、引入极线注意力增强几何对齐的CamCo，以及让用户绘制路径或通过相机注意力实现精确运镜的Direct-a-Video和ReCamMaster；显式建模，比如从单图恢复3D结构再渲染新视角的ViewCrafter，还有用3D点云缓存维护世界状态的Gen3C。

这些方法各有所长，但有一个共性短板：普遍依赖单轨迹串行推理。想一次性生成多条轨迹，同时保证效率、相机精度和跨视角内容一致性，几乎不可能。这个限制对下游空间智能任务的影响是直接的。4D重建需要多视角视频提供监督信号，一旦不同轨迹间出现外观、位置或几何的不一致，误差就会在重建过程中越积越大，最终拖累整体质量。VR/AR这类沉浸式应用同样需要稳定的空间连续性，视角间的内容冲突不仅破坏体验，还可能误导后续的感知模块。更麻烦的是，引入相机控制信号的同时还得避免削弱模型原有的生成质量。所以说，如何兼顾精确运镜、多轨迹一致性和高质量生成，一直是这个方向的硬骨头。

Gen3C和VerseCrafter都尝试过用3D点云缓存或4D几何控制来维护统一的世界状态，但依然没跳出串行推理的范式。问题出在哪？每条轨迹都在相对独立地推断同一个世界，彼此之间缺乏充分的信息交互，同一个主体在不同视角下自然容易出现外观、位置或动作状态对不上的情况。CameraSquad的思路不再依赖于生成之后的"补救"，而是在并行推理的过程中引入双模式跨视角注意力，让多条目标相机轨迹能共享内容与几何信息，从机制上把多视角一致性提上去，为4D重建和空间智能任务提供更可靠的视频先验和3D世界状态。

Part 2 算法原理

CameraSquad还是以Wan2.2视频扩散模型为底座，核心想法很简单：让多条轨迹在并行推理时，对同一个三维世界保持统一的空间感知。整个框架围绕两个关键设计展开。

第一个设计是相机与内容的解耦注意力。在世界模型中，"世界是什么"和"从哪看世界"是两类本质不同的信息，混在一起处理容易互相干扰。CameraSquad把DiT中原有的3D自注意力改成内容注意力（Content-Attention），专门负责输入视频的内容参考——输入视频token和加噪目标token按帧拼接后，通过自注意力交互，实现目标与参考内容之间的有效交叉学习。另一边，单独开辟一条空间注意力通路（Camera-Attention），用PRoPE机制把相机内外参数编码进注意力变换矩阵。PRoPE的特别之处在于，它没有把相机参数压缩成一串简单的1D数值，而是把特征维度拆成三段：前半段编码3D几何投影关系，利用相机内参矩阵与视图矩阵构建投影矩阵P；后两段分别编码2D旋转位置嵌入沿x轴和y轴的位置信息。这意味着模型在注意力层面可以直接感知3D空间中的相对观察位置——也就是两个相机视锥体之间的投影几何关系，而不是简单粗暴的数字编码。这条通路通过零初始化的投影层注入主干，训练时参数冻结，既保证了空间控制能力，又不损害模型原本的生成能力。

第二个设计是双模式跨视角注意力。串行推理之所以不一致，说到底是因为每条轨迹都在独立猜测同一个世界，彼此之间没有信息交互。双模式跨视角注意力就是让多条轨迹在并行推理里"互通有无"，一起看清同一个世界。CVA-α负责内容一致性：参考视频token提供Key和Value，各轨迹的加噪token作为Query，通过reshape让同一帧不同视角的token相互可见——同一时刻、不同视角的像素级信息在注意力层面共享，确保不同视角下对同一物体的外观理解一致，谁也不用自己猜对方长什么样。CVA-β则负责几何一致性：把PRoPE空间注意力从沿帧维度调整为沿视角维度计算，让多视角间的几何监督直接参与注意力运算，增强相机精度和跨视角几何对齐。简单来说，CVA-α管"看起来一样"，CVA-β管"位置也对得上"，两种模块交替插入偶数DiT Block，共同构建多视角空间一致感知能力。

拿到多视角一致的结果后，CameraSquad再用DA3进行深度估计并反投影生成动态点云。与单视角反投影相比，多视角融合的点云更大更精细，还能通过时间维度捕捉场景动态，为下游空间智能任务提供高质量的3D世界状态。训练上采用两阶段方案：第一阶段在低分辨率下训练单轨迹空间控制，让视频模型先学会感知相机控制条件；第二阶段引入CVA支持多轨迹并行生成，分辨率回到原值。此外，还引入了噪声注入策略，缓解合成训练数据与真实数据之间的域差异。

Part 3 效果展示

图 4 单轨迹视频生成的定性对比结果

在WebVid和HumanVid数据集上，CameraSquad与ReCamMaster、TrajectoryCrafter、Gen3C做了对比，相机控制精度全面领先：WebVid数据集上旋转误差低至1.52°、位移误差仅2.86，HumanVid数据集上旋转误差进一步降到1.42°、位移误差3.47，全部是方法里最低的。像素匹配度指标MPI和MPO也达到最高，直观反映了跨视角内容一致性和下游反投影点云的匹配质量。

视觉质量方面，FID、FVD和CLIP-V等指标也达到了有竞争力的水平。特别是在HumanVid数据集上，FID 30.78和CLIP-V 91.37都明显优于所有对比方法，说明空间控制的引入不仅没有损害生成质量，反而有提升。VBench评测中，CameraSquad在美学质量、成像质量、运动平滑度、背景一致性和主体一致性五项关键指标上都拿到了最佳表现——HumanVid数据集上运动平滑度0.9891、背景一致性0.9313、主体一致性0.9260，全面超越ReCamMaster、TrajectoryCrafter和Gen3C。

图 5 多轨迹并行生成的定性对比结果

多轨迹并行生成是CameraSquad最大的优势。从图5可以看到，不同轨迹生成的视频里，同一物体在不同视角下外观、纹理和位置始终保持一致，这符合一个基本要求：同一个物理世界在不同观察角度下应该保持一致。而其他方法串行推理的结果，跨视角不一致的问题相当明显。

图 6 更多定性对比结果

CameraSquad最多支持6条轨迹同步生成，无论是人体视频还是风景视频，都能稳定输出一致的结果。

Part 4 结语

视频生成正在从"生成画面"走向"构建世界模型"，空间智能是这一转变的核心要求。传统方法只能一条轨迹一条轨迹地串行推理，扩散模型的自由发挥让不同视角下的同一个世界"各自为政"；单视角点云反投影也只能勉强补救，深度误差和稀疏性让3D世界状态大打折扣。CameraSquad改变了这一现状。它通过解耦的空间与内容注意力实现了精确相机控制，借助双模式跨视角注意力赋予了模型多视角一致感知能力，再通过多视角深度估计反投影构建更完整的3D世界状态——让视频世界模型真正具备了对同一三维世界在不同观察角度下保持一致理解的关键能力。

只需要一段输入视频和多组目标相机参数，CameraSquad就能一次性并行生成多条空间一致的视频，为4D重建、场景理解、自动驾驶等空间智能任务提供更高质量的2D先验和3D世界状态。就像Gen3C用3D缓存维护世界状态、VerseCrafter用4D几何控制统一动态表达一样，CameraSquad用跨视角注意力确保空间一致感知，共同推动视频世界模型迈向空间智能。

论文、视频和代码的更多细节，可以访问项目主页：

https://rabberk.github.io/CameraSquad/

参考文献

[1] Zhufeng Xu, Xuan Gao, Bailin Deng, Yikang Ding, Xiaogiang Liu, Haoxian Zhang, Pengfei Wan, Hongbo Fu, Lin Gao, CameraSquad: Achieving Content Consistency in Parallel Multi-Trajectory Camera-Controlled Video Generation, ACM SIGGRAPH 2026.

[2] Xuanchi Ren, Tianchang Shen, Jiahui Huang, Huan Ling, Yifan Lu, Merlin Nimier-Da vid, Thomas Müller, Alexander Keller, Sanja Fidler, Jun Gao, Gen3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control, CVPR 2025, 6121-6132.

[3] Sixiao Zheng, Minghao Yin, Wenbo Hu, Xiaoyu Li, Ying Shan, Yanwei Fu, VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control, arXiv preprint arXiv:2601.05138..

[4] Hao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, Ceyuan Yang, CameraCtrl: Enabling Camera Control for Text-to-Video Generation, ICLR 2024.

[5] Zhouxia Wang, Ziyang Yuan, Xintao Wang, Tianshui Chen, Menghan Xia, Ping Luo, Ying Shan, MotionCtrl: A Unified and Flexible Motion Controller for Video Generation, ACM SIGGRAPH 2024 Conference Papers , 1-11.

[6] Dejia Xu, Weili Nie, Chao Liu, Sifei Liu, Jan Kautz, Zhangyang Wang, Arash Vahdat, CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation, arXiv preprint arXiv:2406.02509..

[7] Wangbo Yu, Jinbo Xing, Li Yuan, Wenbo Hu, Xiaoyu Li, Zhipeng Huang, Xiangjun Gao, Tien-Tsin Wong, Ying Shan, Yonghong Tian, ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis, IEEE Transactions on Pattern Analysis and Machine Intelligence, 1-18.

[8] Jianhong Bai, Menghan Xia, Xiao Fu, Xintao Wang, Lianrui Mu, Jinwen Cao, Zuozhu Liu, Haoji Hu, Xiang Bai, Pengfei Wan, Di Zhang, ReCamMaster: Camera-Controlled Generative Rendering from a Single Video, ICCV 2025, 14834-14844.

[9] Mark Yu, Wenbo Hu, Jinbo Xing, Ying Shan, TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models, ICCV 2025, 100-111.

[10] Ruilong Li, Brent Yi, Junchen Liu, Hang Gao, Yi Ma, Angjoo Kanazawa, Cameras as Relative Positional Encoding, NIPS 2025.

[11] Haotong Lin, Sili Chen, Junhao Liew, Donny Y. Chen, Zhenyu Li, Guang Shi, Jiashi Feng, Bingyi Kang, Depth Anything 3: Recovering the Visual Space from Any Views, arXiv preprint arXiv:2511.10647.

[12] Max Bain, Arsha Nagrani, Gül Varol, Andrew Zisserman, Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval, ICCV 2024, 1728-1738.

[13] Zhenzhi Wang, Yixuan Li, Yanhong Zeng, Youqing Fang, Yuwei Guo, Wenran Liu, Jing Tan, Kai Chen, Tianfan Xue, Bo Dai, Dahua Lin, HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation, NeurIPS 2024, 20111-20131.

[14] Shiyuan Yang, Liang Hou, Haibin Huang, Chongyang Ma, Pengfei Wan, Di Zhang, Xiaodong Chen, Jing Liao, Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion, SIGGRAPH 2024, 1-12.