首页 > 教程攻略 > ai教程 >火山引擎多媒体实验室AIGC视频画质理解大模型VQ-Insight入选AAAI 2025 Oral

火山引擎多媒体实验室AIGC视频画质理解大模型VQ-Insight入选AAAI 2025 Oral

来源：互联网时间：2026-07-01 08:32:05

先说一个值得关注的信号——AAAI 2026的录用结果刚刚公布。这个人工智能领域的顶级学术会议，今年收到了23680篇投稿，最终只有4167篇被接收，录取率17.6%，竞争激烈程度可见一斑。在这么多论文中，火山引擎多媒体实验室和北京大学合作的论文VQ-Insight: Teaching VLMs for AI-Generated Video Quality Understanding via Progressive Visual Reinforcement Learning，被选为会议的口头汇报文章，算得上是优中选优。

论文背景

如今，凭一句提示词或一张图片生成逼真视频，已经不是科幻电影里的桥段。生成式AI视频技术飞速迭代，但一个核心问题始终摆在眼前：在后训练阶段，怎么能让生成质量再上一个台阶？答案其实很直白——可靠的画质评估和偏好选择，不仅是检验生成效果的标准，更是驱动模型持续优化的关键动力。它们能让生成视频越来越接近人眼的真实感知，画面更清晰，时序过渡更流畅。

在此之前，北京大学和火山引擎多媒体实验室已经联手提出了Q-Insight，一个基于强化学习的多模态大模型图像画质理解方案。这个方案的亮点在于，它跳出了对大规模文本标注的依赖，让大模型自己去推理图像质量背后的原因。但把同样的思路搬到AIGC视频评估上，挑战远不止于此：首先，怎么有效激发大模型对视频时序的感知能力，同时还兼顾多维度画质的理解？其次，怎么建立评估模型和生成模型之间的双向反馈，让两边在训练中相互促进？这两个问题，正是VQ-Insight要解决的。

渐进式视觉质量强化学习框架

图像说到底只是视频的一个切片，用户真实观看体验的优劣，还取决于时间维度上的表现——运动是不是自然？色彩在动态切换中会不会失真？基于这个核心判断，团队把Q-Insight的“推理式 + 强化学习”思路从图像拓展到了视频，推出了VQ-Insight。整条路径设计得很巧妙：采用渐进式视觉质量强化学习框架，分为三个阶段——图像打分预热、任务驱动的通用时序学习、以及与视频生成模型的联合微调。从易到难，从通用到具体，只用少量数据就能教会模型完成多项任务：AIGC视频偏好比较、多维度打分、自然视频打分等等。最终还可以建立和下游生成模型之间的专项评估能力。

支撑这套框架的，是时序建模奖励函数和长度控制奖励函数。它们让大模型主动去探索视频帧之间的相关性和连贯性，还能提供关于视频质量线索的详细分析，无论是偏好比较还是分数回归，准确度都上了一个台阶。

不过，最值得关注的创新点，是生成模型与质量评估模型的“共同进化”联合训练方式。具体来说，生成模型每一轮都会产出一批新视频，VQ-Insight自动从中挑出更好的和更差的样本，构建高质量偏好数据。这些数据一方面用来继续优化视频生成模型（比如通过DPO），另一方面也反向强化VQ-Insight自身的偏好理解能力。整套机制形成一个闭环：生成模型和评估模型在迭代中共同变强，实现“越生成越懂、越懂越能生”的持续提升效果。

实验结果

实验数据很能说明问题。在AIGC偏好比较任务上，VQ-Insight在多个公开数据集上的表现全面超越现有最先进的方法，而且能从视觉质量、时序一致性、动态程度和视频真实性这几个维度给出完整、可解释的推理过程。

而在AIGC多维度打分任务上，VQ-Insight同样拿下最优性能，涵盖空间质量、时序质量以及文本视频一致性三个维度。

自然视频打分任务也没落下。VQ-Insight在分数拟合的精确度上表现突出，尤其是在域外数据集上的泛化能力，令人印象深刻。

更重要的一点是，VQ-Insight这种强大的偏好比较能力，可以直接用在视频生成模型的直接偏好优化（DPO）上。从可视化结果看，基于VQ-Insight的方案相比生成模型基线和对比方法，明显缓解了错误生成的问题，色彩和动态效果也更加自然、丰富。

总结

VQ-Insight把“推理式 + 强化学习”思路系统地应用到了AIGC视频画质理解中，在偏好比较、多维度画质打分和自然视频质量评估这些任务上都实现了突破。背后的渐进式框架加上创新的时序奖励机制，让它能用极少的数据做到强泛化和强解释性，精准捕捉视频的空间清晰度、动态一致性、内容真实性等多元质量特征。当然，最核心的价值在于，VQ-Insight已经可以直接嵌入生成模型的后训练流程，成为一个可插拔的奖励与偏好模块。它把“看得准”转化成了“生成得更好”，为下一代AIGC视频生成技术的迭代，铺设了一个稳重而高效的基础。

火山引擎多媒体实验室AIGC视频画质理解大模型VQ-Insight入选AAAI 2025 Oral

论文背景

渐进式视觉质量强化学习框架

实验结果

总结

相关阅读

相关下载