让大模型“边看边改”，视觉分割准确率直接上涨9%

来源：互联网时间：2026-05-28 10:01:21

视觉分割，这个任务听起来简单直接：给模型一张图、一句话，让它把目标区域的像素圈出来。但在实际应用中，一旦目标表述模糊、物体被遮挡，或者需要结合常识推理才能定位，让模型一次性“猜”出准确的掩码就变得相当困难。

最近，来自复旦大学和上海创智学院的研究团队给出了一个新的思路。他们提出的RSAgent框架，让多模态大模型通过多轮工具调用来生成更准确的掩码，相关工作已入选ICML 2026。

团队的核心观点很明确：现有方法的主要短板，或许并不在于需要一个更强大的分割头，而在于缺少一个“确认和纠错”的过程。RSAgent正是为此而生，它将分割任务从一个静态的预测问题，转变为一个动态的、交互式的智能体决策过程。

模型不再追求一次性输出最终答案，而是先观察图像、进行推理、调用视觉工具、读取反馈，再根据历史结果迭代修正，最终生成更可靠的掩码。

实验数据也支持了这一思路。在需要复杂推理的ReasonSeg测试集上，RSAgent的gIoU相比Seg-Zero-7B提升了9.0个百分点；在RefCOCOg数据集上，平均cIoU达到了81.5%。

开放语义分割，难在哪里

如今的多模态大语言模型（MLLM）已经能够出色地描述图像、回答问题、理解物体关系。然而，许多真实的视觉系统需求不止于文字答案。无论是交互式标注、机器人感知，还是设计编辑、工业质检，都要求模型能将语言理解精准地“落地”到具体的像素区域。

这其中的核心挑战在于，模型必须在“语义理解”和“准确掩码”之间完成可靠的转换。开放语义分割的指令往往不是简单的类别名词，比如“图中左侧正在被人拿起的物体”，或者“找出湍急水流中保障个人安全的装备”。前者需要理解空间关系，后者则需要场景常识和用途推理。

如果模型只进行一次前向预测，就很难验证自己是否选对了目标。问题的关键或许不在于模型“不能产生掩码”，而在于它“缺少确认与纠错的过程”。一旦初始定位出现偏差，模型往往没有机会重新观察、调整策略。

RSAgent正是瞄准了这一痛点。正如团队所言，其目标不是单纯追求更复杂的分割头，而是让模型在开放语义任务中，具备“先判断、再行动、看反馈、再修正”的闭环能力。

怎么解决？让MLLM学会Reason and Act

RSAgent的解决方案颇具巧思：它并非将MLLM直接改造成一个掩码解码器，而是将其塑造成一个能够调度视觉工具的智能体。在每一轮交互中，模型接收原图、文本指令和历史观察，输出结构化的推理和工具调用指令；工具则返回局部视图、候选掩码等反馈；模型再基于这些反馈决定是继续调用工具、调整提示，还是提交最终答案。

下图展示了RSAgent的总体框架，其核心在于多轮交互、工具调用、观察反馈，并通过冷启动监督微调（cold-start SFT）和智能体强化学习（agentic RL）进行训练。

具体的技术模块及其作用如下图所示：

在数据构建层面，RSAgent通过自动合成与严格筛选来构建高质量的训练轨迹。论文中用于冷启动SFT的数据包含了约5K条高质量多轮推理轨迹；在RL阶段，则使用了约2K个RL示例，并额外加入了8K个RefCOCOg训练样本，以帮助模型在交互环境中学习回报更高的工具调用路径。

可以说，RSAgent的真正价值在于它将推理、工具、反馈与奖励闭合为一个完整的训练体系。模型不仅要理解目标是什么，还要学会自适应地缩放视图、提供提示、执行分割并决定何时停止。

具体到一次交互流程，可以理解为四步循环：观察（Observation）、思考（Thought）、行动（Action）、反馈（Feedback）。这个循环让模型摆脱了对单次判断的依赖，建立起逐步验证的机制。这对于处理那些涉及复杂关系、属性或隐含推理的指令尤其有效。例如，当目标物体很小、被遮挡，或需要根据动作、用途来定位时，RSAgent可以先进行粗定位，再查看局部区域，然后依据候选掩码的偏差重新指定点或框，从而多了一个可审查的中间过程。

在训练策略上，冷启动SFT解决了模型“会不会按格式工作”的问题，让其掌握工具调用的语法和基本反思流程；而智能体RL则解决了“怎样做得更好”的问题，通过奖励信号来优化多轮决策路径。两者结合，使得RSAgent既能稳定输出结构化结果，也能在复杂的开放语义样本上学习更优的决策。

实验结果：ReasonSeg与RefCOCOg上取得领先表现

在实验中，团队以Qwen2.5-VL-7B-Instruct作为基础模型，SAM2-large作为分割工具，在RefCOCO系列和ReasonSeg数据集上进行了系统评测。

下图展示了RSAgent在RES和ReasonSeg基准上取得的领先表现。

具体的评测结果如下：

在ReasonSeg测试集上，RSAgent达到了66.5%的gIoU，相比Seg-Zero-7B的57.5%提升了9.0个百分点；在RefCOCOg上，平均cIoU达到了约81.5%。这些结果表明，对于依赖开放语义推理的分割任务，该模型不仅能理解描述，还能更稳健地将理解转化为准确的像素级掩码。

消融实验进一步揭示了性能提升的来源，它并非来自单一模块。未经训练的智能体在ReasonSeg测试集上cIoU仅为30.1；加入冷启动SFT后提升至55.4；仅使用RL为54.3；而完整的SFT+RL组合则达到了57.9。这清晰地表明，先让模型学会规范的工具调用，再通过强化学习优化长程决策，是RSAgent成功的关键。

下图是关于最大工具调用轮数的消融实验。结果显示，适当增加交互轮数可以提升表现，但过长的上下文也可能带来冗余和不稳定。

奖励函数的设计同样至关重要。实验发现，移除最终奖励（final reward）、过程奖励（process reward）或格式奖励（format reward）都会导致性能下降。其中，去掉最终奖励后，ReasonSeg测试集上的性能从57.9大幅降至48.3，这说明最终掩码的质量仍然是核心优化目标。而过程奖励则鼓励模型在中间步骤持续改进，而不是盲目增加工具调用次数。