EvoQuality - 字节跳动开源的图像质量评估模型
来源:互联网
时间:2026-06-13 15:03:26
EvoQuality是什么
先说说EvoQuality这个项目——它其实是字节跳动和香港城市大学联手搞出来的一套自进化视觉语言模型框架,主攻的方向是无参考图像质量评估。底层模型基于Qwen2.5-VL-7B,最吸引人的地方在于:整个训练过程完全不需要人工标注质量分数,也不需要失真标签。模型自己通过成对比较和多数投票生成伪排名标签,再拿GRPO强化学习算法反复迭代,实现自我进化。
EvoQuality的主要功能
- :对单张图像输出连续的质量分数,能处理真实失真、合成失真、AI生成失真等多种类型。
单图质量评分
- :通过成对比较判断两张图像谁的质量更好,同时生成可解释的质量描述文本。
图像对质量对比
- :离线阶段用多数投票生成高置信度的伪标签,在线阶段用GRPO优化策略,形成闭环自我提升。
自进化迭代训练
EvoQuality的技术原理
- :对未标注的图像对反复查询,让当前VLM判断“哪张图像质量更好”。通过成对多数投票(Pairwise Majority Voting)建立相对质量共识,生成伪排名标签,彻底替代人工MOS标注。再用Thurstone Case V心理测量模型把离散比较结果转化为连续的质量分数分布,输出可优化的保真度奖励信号。
离线伪标签生成
- :用GRPO算法把伪标签变成奖励信号,更新VLM策略。通过组内样本的相对奖励来估计优势函数,大幅降低训练时的内存和计算开销。策略模型针对同一批图像对生成多个回答,根据伪标签算出的奖励做梯度更新。
在线策略进化
- :多轮迭代形成正反馈——模型能力提升→生成更高质量伪标签→模型进一步进化。实验数据显示,零样本PLCC平均提升了31.8%。
迭代进化机制
如何使用EvoQuality
- :安装Python 3.8+以及PyTorch、Transformers等依赖库,确保GPU环境可用。
环境准备
- :从HuggingFace拉取
模型加载
ByteDance/EvoQuality的模型权重与处理器文件到本地。 - :读取待评估图像,构造提示词如“Please rate the quality of this image from 0 to 100.”并输入模型。模型会输出连续质量分数以及结构化的质量缺陷/优势描述。
单图质量评分
- :准备两张待对比图像,构造提示词如“Which image has better quality? Explain why.”并输入模型。
图像对质量对比
- :对图像数据集做批量推理,结合多次查询的多数投票机制生成高置信度伪标签。
批量评估
- :用生成的伪标签通过GRPO算法微调模型,启动新一轮迭代进化,持续提升评估精度。
自进化训练(进阶)
EvoQuality的核心优势
- :完全不需要人工主观评分或失真标签,仅靠模型自身的成对比较与多数投票就能生成训练信号。
零标注成本
- :在7个IQA基准中的5个上超越了当前最先进的监督VLM-based IQA方法,零样本PLCC平均提升31.8%。
性能超越监督模型
- :多轮迭代形成“生成伪标签→训练模型→模型更强→生成更好标签”的正反馈循环,持续突破性能上限。
自进化闭环能力
- :天然支持零样本跨域评估,无需针对新数据集重新对齐感知尺度或重新训练。
跨数据集强泛化
EvoQuality的项目地址
- :https://huggingface.co/ByteDance/EvoQuality
HuggingFace模型库
- :https://arxiv.org/pdf/2509.25787
arXiv技术论文
EvoQuality的同类竞品对比
| 维度 | EvoQuality | VisualQuality-R1 |
|---|---|---|
监督方式 |
完全自监督,零人工标注 | 需人工MOS标注作为ground truth |
核心算法 |
GRPO + 成对多数投票伪标签 + 多轮自进化 | GRPO + Thurstone模型 + 连续保真度奖励 |
奖励来源 |
模型自身生成的伪排名标签(无需外部标注) | 基于人工MOS计算的连续fidelity measure |
模型基础 |
Qwen2.5-VL-7B | Qwen2.5-VL-7B |
训练机制 |
离线伪标签生成 → 在线GRPO优化 → 迭代闭环进化 | 单轮/有限轮次RL训练,依赖固定标注数据集 |
数据依赖 |
仅需未标注图像,数据获取零成本 | 需KADID-10K、TID2013、KonIQ-10k等带MOS数据集 |
迭代能力 |
支持多轮自举迭代,模型与标签质量相互提升 | 训练收敛后不再进化,受限于标注数据规模 |
可解释性 |
输出质量分数 + 结构化质量描述文本 | 输出质量分数 + 推理过程(thinking)+ 质量描述 |
跨数据集训练 |
天然支持,无需感知尺度重新对齐 | 支持多数据集训练,无需尺度重新对齐 |
EvoQuality的应用场景
- :自动评估文生图、图像超分辨率、老照片修复等AI生成内容的感知质量,替代人工审核,降低内容平台运营成本。
AIGC内容质检
- :实时评估压缩后的图像质量,在带宽与画质之间找到最优平衡点,适用于视频流媒体、云存储等场景。
图像压缩与传输优化
- :实时分析取景画面质量,指导用户调整对焦、曝光、构图参数,或者自动从连拍中筛选出最佳成像。
手机摄影辅助
- :把单帧评估扩展到时序维度,分析动态模糊、帧间一致性、码率波动对观感的影响,用于视频编码与传输质量监控。
视频质量评估