首页 > 教程攻略 > ai资讯 >让大模型“边看边改”,视觉分割准确率直接上涨9%

让大模型“边看边改”,视觉分割准确率直接上涨9%

来源:互联网 时间:2026-05-28 10:01:21

视觉分割,这个任务听起来简单直接:给模型一张图、一句话,让它把目标区域的像素圈出来。但在实际应用中,一旦目标表述模糊、物体被遮挡,或者需要结合常识推理才能定位,让模型一次性“猜”出准确的掩码就变得相当困难。

最近,来自复旦大学和上海创智学院的研究团队给出了一个新的思路。他们提出的RSAgent框架,让多模态大模型通过多轮工具调用来生成更准确的掩码,相关工作已入选ICML 2026。

团队的核心观点很明确:现有方法的主要短板,或许并不在于需要一个更强大的分割头,而在于缺少一个“确认和纠错”的过程。RSAgent正是为此而生,它将分割任务从一个静态的预测问题,转变为一个动态的、交互式的智能体决策过程。

模型不再追求一次性输出最终答案,而是先观察图像、进行推理、调用视觉工具、读取反馈,再根据历史结果迭代修正,最终生成更可靠的掩码。

实验数据也支持了这一思路。在需要复杂推理的ReasonSeg测试集上,RSAgent的gIoU相比Seg-Zero-7B提升了9.0个百分点;在RefCOCOg数据集上,平均cIoU达到了81.5%。

开放语义分割,难在哪里

如今的多模态大语言模型(MLLM)已经能够出色地描述图像、回答问题、理解物体关系。然而,许多真实的视觉系统需求不止于文字答案。无论是交互式标注、机器人感知,还是设计编辑、工业质检,都要求模型能将语言理解精准地“落地”到具体的像素区域。

这其中的核心挑战在于,模型必须在“语义理解”和“准确掩码”之间完成可靠的转换。开放语义分割的指令往往不是简单的类别名词,比如“图中左侧正在被人拿起的物体”,或者“找出湍急水流中保障个人安全的装备”。前者需要理解空间关系,后者则需要场景常识和用途推理。

如果模型只进行一次前向预测,就很难验证自己是否选对了目标。问题的关键或许不在于模型“不能产生掩码”,而在于它“缺少确认与纠错的过程”。一旦初始定位出现偏差,模型往往没有机会重新观察、调整策略。

RSAgent正是瞄准了这一痛点。正如团队所言,其目标不是单纯追求更复杂的分割头,而是让模型在开放语义任务中,具备“先判断、再行动、看反馈、再修正”的闭环能力。

怎么解决?让MLLM学会Reason and Act

RSAgent的解决方案颇具巧思:它并非将MLLM直接改造成一个掩码解码器,而是将其塑造成一个能够调度视觉工具的智能体。在每一轮交互中,模型接收原图、文本指令和历史观察,输出结构化的推理和工具调用指令;工具则返回局部视图、候选掩码等反馈;模型再基于这些反馈决定是继续调用工具、调整提示,还是提交最终答案。

下图展示了RSAgent的总体框架,其核心在于多轮交互、工具调用、观察反馈,并通过冷启动监督微调(cold-start SFT)和智能体强化学习(agentic RL)进行训练。

具体的技术模块及其作用如下图所示:

在数据构建层面,RSAgent通过自动合成与严格筛选来构建高质量的训练轨迹。论文中用于冷启动SFT的数据包含了约5K条高质量多轮推理轨迹;在RL阶段,则使用了约2K个RL示例,并额外加入了8K个RefCOCOg训练样本,以帮助模型在交互环境中学习回报更高的工具调用路径。

可以说,RSAgent的真正价值在于它将推理、工具、反馈与奖励闭合为一个完整的训练体系。模型不仅要理解目标是什么,还要学会自适应地缩放视图、提供提示、执行分割并决定何时停止。

具体到一次交互流程,可以理解为四步循环:观察(Observation)、思考(Thought)、行动(Action)、反馈(Feedback)。这个循环让模型摆脱了对单次判断的依赖,建立起逐步验证的机制。这对于处理那些涉及复杂关系、属性或隐含推理的指令尤其有效。例如,当目标物体很小、被遮挡,或需要根据动作、用途来定位时,RSAgent可以先进行粗定位,再查看局部区域,然后依据候选掩码的偏差重新指定点或框,从而多了一个可审查的中间过程。

在训练策略上,冷启动SFT解决了模型“会不会按格式工作”的问题,让其掌握工具调用的语法和基本反思流程;而智能体RL则解决了“怎样做得更好”的问题,通过奖励信号来优化多轮决策路径。两者结合,使得RSAgent既能稳定输出结构化结果,也能在复杂的开放语义样本上学习更优的决策。

实验结果:ReasonSeg与RefCOCOg上取得领先表现

在实验中,团队以Qwen2.5-VL-7B-Instruct作为基础模型,SAM2-large作为分割工具,在RefCOCO系列和ReasonSeg数据集上进行了系统评测。

下图展示了RSAgent在RES和ReasonSeg基准上取得的领先表现。

具体的评测结果如下:

在ReasonSeg测试集上,RSAgent达到了66.5%的gIoU,相比Seg-Zero-7B的57.5%提升了9.0个百分点;在RefCOCOg上,平均cIoU达到了约81.5%。这些结果表明,对于依赖开放语义推理的分割任务,该模型不仅能理解描述,还能更稳健地将理解转化为准确的像素级掩码。

消融实验进一步揭示了性能提升的来源,它并非来自单一模块。未经训练的智能体在ReasonSeg测试集上cIoU仅为30.1;加入冷启动SFT后提升至55.4;仅使用RL为54.3;而完整的SFT+RL组合则达到了57.9。这清晰地表明,先让模型学会规范的工具调用,再通过强化学习优化长程决策,是RSAgent成功的关键。

下图是关于最大工具调用轮数的消融实验。结果显示,适当增加交互轮数可以提升表现,但过长的上下文也可能带来冗余和不稳定。

奖励函数的设计同样至关重要。实验发现,移除最终奖励(final reward)、过程奖励(process reward)或格式奖励(format reward)都会导致性能下降。其中,去掉最终奖励后,ReasonSeg测试集上的性能从57.9大幅降至48.3,这说明最终掩码的质量仍然是核心优化目标。而过程奖励则鼓励模型在中间步骤持续改进,而不是盲目增加工具调用次数。

让视觉大模型进入可验证的像素行动空间

RSAgent的价值远不止于刷新几个基准测试的指标。更重要的是,它展示了一条从“看图问答”迈向“视觉行动”的可行路径:模型可以围绕文本目标,持续观察、调用工具、接受反馈、修正假设,并将最终判断落实到图像像素上。

这种能力对于构建交互式视觉系统具有普遍意义:

  • 在数据标注领域,它有望减少人工反复试错的工作量;
  • 对于机器人感知,它让模型能在执行操作前重新确认目标区域;
  • 在设计编辑和内容生产中,它可以将自然语言意图转化为更稳定、可编辑的区域;
  • 在科学图像分析中,它提供了可回看、可复核的中间推理过程。

从更宏观的趋势来看,RSAgent将开放语义理解、工具调用和像素级执行连接了起来。它表明,多模态大模型不必仅仅停留在“回答关于图像的问题”这一层面,而是可以在视觉空间中主动探索、试错和修正。这个方向将视觉智能体推向了更接近真实任务需求的形态。

一言以蔽之,RSAgent证明了多模态大模型可以从“结合文本与图像内容”进一步走向“在像素空间中推理、行动和自我修正”。

这项工作的作者团队来自复旦大学、上海创智学院、上海交通大学等单位。论文共同第一作者为何星旗与张钰杰。何星旗为复旦大学一年级硕士生,研究方向为视觉语言模型推理与强化学习;张钰杰为上海创智学院与复旦大学联合培养博士生,主要研究方向为视觉语言模型推理、强化学习与大语言模型。

论文地址:https://arxiv.org/abs/2512.24023

项目代码:https://github.com/Nicola777-ai/RSAgent