首页 > 教程攻略 > ai教程 >火山引擎多媒体实验室AIGC视频画质理解大模型VQ-Insight入选AAAI 2025 Oral

火山引擎多媒体实验室AIGC视频画质理解大模型VQ-Insight入选AAAI 2025 Oral

来源:互联网 时间:2026-07-01 08:32:05

先说一个值得关注的信号——AAAI 2026的录用结果刚刚公布。这个人工智能领域的顶级学术会议,今年收到了23680篇投稿,最终只有4167篇被接收,录取率17.6%,竞争激烈程度可见一斑。在这么多论文中,火山引擎多媒体实验室和北京大学合作的论文VQ-Insight: Teaching VLMs for AI-Generated Video Quality Understanding via Progressive Visual Reinforcement Learning,被选为会议的口头汇报文章,算得上是优中选优。

论文背景

如今,凭一句提示词或一张图片生成逼真视频,已经不是科幻电影里的桥段。生成式AI视频技术飞速迭代,但一个核心问题始终摆在眼前:在后训练阶段,怎么能让生成质量再上一个台阶?答案其实很直白——可靠的画质评估和偏好选择,不仅是检验生成效果的标准,更是驱动模型持续优化的关键动力。它们能让生成视频越来越接近人眼的真实感知,画面更清晰,时序过渡更流畅。

在此之前,北京大学和火山引擎多媒体实验室已经联手提出了Q-Insight,一个基于强化学习的多模态大模型图像画质理解方案。这个方案的亮点在于,它跳出了对大规模文本标注的依赖,让大模型自己去推理图像质量背后的原因。但把同样的思路搬到AIGC视频评估上,挑战远不止于此:首先,怎么有效激发大模型对视频时序的感知能力,同时还兼顾多维度画质的理解?其次,怎么建立评估模型和生成模型之间的双向反馈,让两边在训练中相互促进?这两个问题,正是VQ-Insight要解决的。

渐进式视觉质量强化学习框架

图像说到底只是视频的一个切片,用户真实观看体验的优劣,还取决于时间维度上的表现——运动是不是自然?色彩在动态切换中会不会失真?基于这个核心判断,团队把Q-Insight的“推理式 + 强化学习”思路从图像拓展到了视频,推出了VQ-Insight。整条路径设计得很巧妙:采用渐进式视觉质量强化学习框架,分为三个阶段——图像打分预热、任务驱动的通用时序学习、以及与视频生成模型的联合微调。从易到难,从通用到具体,只用少量数据就能教会模型完成多项任务:AIGC视频偏好比较、多维度打分、自然视频打分等等。最终还可以建立和下游生成模型之间的专项评估能力。

支撑这套框架的,是时序建模奖励函数和长度控制奖励函数。它们让大模型主动去探索视频帧之间的相关性和连贯性,还能提供关于视频质量线索的详细分析,无论是偏好比较还是分数回归,准确度都上了一个台阶。

不过,最值得关注的创新点,是生成模型与质量评估模型的“共同进化”联合训练方式。具体来说,生成模型每一轮都会产出一批新视频,VQ-Insight自动从中挑出更好的和更差的样本,构建高质量偏好数据。这些数据一方面用来继续优化视频生成模型(比如通过DPO),另一方面也反向强化VQ-Insight自身的偏好理解能力。整套机制形成一个闭环:生成模型和评估模型在迭代中共同变强,实现“越生成越懂、越懂越能生”的持续提升效果。

实验结果

实验数据很能说明问题。在AIGC偏好比较任务上,VQ-Insight在多个公开数据集上的表现全面超越现有最先进的方法,而且能从视觉质量、时序一致性、动态程度和视频真实性这几个维度给出完整、可解释的推理过程。

而在AIGC多维度打分任务上,VQ-Insight同样拿下最优性能,涵盖空间质量、时序质量以及文本视频一致性三个维度。

自然视频打分任务也没落下。VQ-Insight在分数拟合的精确度上表现突出,尤其是在域外数据集上的泛化能力,令人印象深刻。

更重要的一点是,VQ-Insight这种强大的偏好比较能力,可以直接用在视频生成模型的直接偏好优化(DPO)上。从可视化结果看,基于VQ-Insight的方案相比生成模型基线和对比方法,明显缓解了错误生成的问题,色彩和动态效果也更加自然、丰富。

总结

VQ-Insight把“推理式 + 强化学习”思路系统地应用到了AIGC视频画质理解中,在偏好比较、多维度画质打分和自然视频质量评估这些任务上都实现了突破。背后的渐进式框架加上创新的时序奖励机制,让它能用极少的数据做到强泛化和强解释性,精准捕捉视频的空间清晰度、动态一致性、内容真实性等多元质量特征。当然,最核心的价值在于,VQ-Insight已经可以直接嵌入生成模型的后训练流程,成为一个可插拔的奖励与偏好模块。它把“看得准”转化成了“生成得更好”,为下一代AIGC视频生成技术的迭代,铺设了一个稳重而高效的基础。