首页 > 教程攻略 > ai资讯 >SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”

SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”

来源:互联网 时间:2026-06-04 15:59:15

在多模态大模型的后训练流程里,业内似乎早已默认了一个“两步走”的范式:先做有监督微调(SFT),紧接着上强化学习(RL)。从DeepSeek到Qwen,从GRPO到DAPO,大家的精力都放在了如何优化RL算法上——提升稳定性、改进采样效率、设计更精巧的奖励函数。

但很少有人回过头来审视这个起点:从SFT到RL的这一步跳跃,真的就那么理所当然吗?

最近,一项由香港科技大学(广州)、南洋理工大学、清华大学等机构合作的研究(Beyond SFT-to-RL,简称PRISM)揭示了一个令人警惕的现象:

SFT不仅没有为后续的RL铺平道路,反而可能在悄悄埋下隐患。

被忽视的“隐形断层”:SFT到底做了什么?

先来看一组对比数据。在7个主流多模态基准上的平均准确率显示:

阶段

Qwen3-VL-4B

Qwen3-VL-8B

原始Instruct模型 59.7% 63.3%
SFT之后 56.8% (-3.0) 58.1% (-5.2)
SFT → GRPO 61.8% 63.3%

一个明显的趋势是:

SFT之后,模型的性能反而下降了。

对于8B模型,这个现象更为突出——性能先跌了5.2个百分点,之后辛辛苦苦做完强化学习,才勉强爬回基线水平。

这意味着什么?意味着后续的强化学习,很可能不是在“提升”模型,而是在“偿还”SFT阶段造成的性能损失。这并非孤例。在目前主流的强指令模型上,只要SFT数据引入的分布与原始基座模型不一致(例如使用来自GPT或Gemini的蒸馏数据),几乎都能观察到类似的性能回落。

原因其实很直接:这类经过大规模后训练的基座模型,其能力已经处于一个相对稳定和高位的状态。SFT强迫模型去模仿一套新的、通常更“窄”的数据分布,结果往往是旧有的广泛能力被“冲刷”掉,而新的能力又未能扎实建立。换句话说,

模型本身越强、越接近实际部署水平,SFT带来的分布偏移就越可能成为一个绕不开的“暗坑”。

这也正是PRISM这项研究存在的必要性。

其背后的核心问题,是机器学习中老生常谈的“分布漂移”。但在多模态场景下,这个问题表现得更为隐蔽和复杂。

问题根源:SFT引入的两类偏差

SFT在多模态任务中,主要会引入两类容易被忽视的偏差。

偏差一:表面模仿——Token级损失混淆了过程与结果

SFT的优化目标,是在均匀的Token级损失下模仿给定的演示轨迹。它并不区分什么是关键的“推理过程”,什么是次要的“格式化套话”。对模型而言,一个正确的逻辑步骤和一个固定的回答模板,在损失函数中的权重是一样的。

这导致的结果是,

模型可能只学会了让输出“长得像”标准答案,而不是真正“想得出”正确答案。

它习得的是表面的语言模式,而非深层的、忠实于问题的推理能力。

偏差二:感知与推理漂移在同一个损失函数中耦合

这是多模态场景特有的麻烦。与纯文本模型不同,多模态模型的漂移不是单一的,而是两种性质完全不同的失败模式在同时发生:

  • 感知漂移

    :模型对图像内容的识别和定位出现偏差,简单说就是“看错了”。
  • 推理漂移

    :模型基于视觉信息进行逻辑推导时失败,即“想歪了”。

这两种漂移的成因和纠正方式截然不同,但SFT却用同一个Token级别的损失函数将它们强行拟合在一起。当进入RL阶段时,模型往往已经在感知和推理两端都发生了偏移,变成了一个“既看不准,又想不对”的状态。

现有RL算法为什么救不了?

从GRPO到DAPO,再到GSPO,RL算法近期的确在不断进步。但它们主要解决的是

RL阶段内部的问题

,比如采样效率、梯度方差或策略崩溃。

没有任何一种主流RL算法被设计用来修复SFT阶段留下的分布偏差。

打个比方:这就像参加百米赛跑,SFT不仅没让你站上起跑线,反而把你向后推了50米。现有的RL算法都在研究如何跑得更快,但你的起点还在坑里。而PRISM要做的,就是在SFT和RL之间补上这缺失的一步——不仅把你拉回起跑线,还顺势往前推一把,让后续的RL只需要跑50米就能冲线。

PRISM的核心方案:三阶段流水线

PRISM打破了传统的两阶段范式,提出了一个全新的三阶段流水线:

SFT → 分布对齐 (PRISM) → RLVR

其关键创新,就在于中间新增的“分布对齐”阶段。

混合专家判别器

既然感知漂移和推理漂移是两类不同的偏差,就需要分开处理。为此,PRISM设计了一个混合专家判别器,它由两个专门化的专家模块组成:

  • 感知专家 D_v

    :专门评估模型的输出是否忠实于图像内容,旨在解决“看错了”的问题。
  • 推理专家 D_r

    :专门评估逻辑推理轨迹是否一致有效,旨在解决“想歪了”的问题。

最终的判别得分是两者的加权组合:

r(x,y) = α · D_v(x,c) + (1-α) · D_r(x,t)

。这种设计提供了

解耦的纠正信号

,避免了将两种不同的误差模式塞进一个标量奖励中,从而防止梯度信号变得嘈杂无效。

黑盒蒸馏:无需教师模型内部信息

PRISM的另一个巧妙之处在于它是

黑盒

操作的。许多知识蒸馏方法需要访问教师模型的logits(内部概率分布),这意味着你必须拥有教师模型的完整权重。然而在实际中,最强的模型往往只提供API接口。

PRISM完全在

响应级别

工作:从强大的黑盒模型(如Gemini 3 Flash)采集高质量输出作为正样本,从当前策略模型采样作为负样本,通过对抗博弈的方式来实现分布对齐。

这意味着,只要你能调用API,就能使用PRISM。

一个关键的设计决策:去掉KL正则化

传统的RL训练通常会加入KL散度约束,以防止策略偏离初始模型太远。但PRISM有意识地

去掉了这个约束

。道理很清晰:对齐阶段的目标正是要纠正SFT带来的分布偏差,如果再加一个把策略拉回SFT分布的KL约束,岂不是自相矛盾?

分布演变:对齐如何重塑起点

下面的示意图直观展示了模型输出分布的演变过程。从Base(基座)到Post-SFT(SFT后),再到Post-Alignment(对齐后),无论是推理步骤的数量分布,还是视觉描述项数的分布,都逐步向高质量的监督数据靠拢。

可以清晰地看到,Post-SFT(蓝线)与Supervision(黑线)之间仍有明显差距,而Post-Alignment(橙线)则大幅缩小了这一差距。更重要的是,这种改进在后续的Post-RLVR(绿线)阶段得以保持。

实验验证

研究在Qwen3-VL的4B和8B两个模型规模上,将PRISM与

GRPO、DAPO、GSPO

三种主流RL算法结合,并在

4个数学推理基准(MathVista, MathVerse, MathVision, WeMath)

3个通用多模态基准(MMMU, MMMU-Pro, HallusionBench)

上进行了全面验证。

论文中的主结果(下表,灰色行代表使用了PRISM)揭示了几个关键信号:

  1. 模型越强,PRISM带来的增益越大

    :8B模型获得了平均+6.0的提升,而4B模型为+4.4。这表明能力更强的基座被SFT“伤害”得更深,也因此从分布对齐中受益更多。
  2. PRISM在绝大多数子任务上取得了同基座下的最佳分数

    (表中加粗部分),覆盖了数学推理和通用视觉理解两类任务。这意味着对齐带来的不是某个特定领域的局部优化,而是

    分布层面的全局校准

消融实验:每一步都不可或缺

从消融实验结果可以清晰地看到每个组件的贡献:

  1. 去掉SFT阶段直接导致性能下降16.8个点

    ,这说明SFT作为能力“冷启动”的手段仍然不可替代。PRISM并非要取代SFT,而是修复其带来的副作用。
  2. 去掉对齐阶段性能下降4.4个点

    ,这与4B模型主表中的提升幅度完全对应,直接证明了分布对齐的有效性。
  3. 使用单个4B判别器替代MoE结构,性能下降3.4个点;仅使用文本判别器(无视觉专家),性能下降3.9个点。

    后者尤其值得玩味:没有视觉感知能力的判别器只能捕捉表面模式(如格式、模板),这会导致策略学会“鹦鹉学舌”式的对齐——输出听起来像监督数据,但实际上并未准确描述图像内容。

结语

PRISM的出现,相当于为多模态大模型的后训练范式打上了一个关键的“补丁”。这个补丁的重要性,或许不亚于主程序本身。

它揭示了一个长期被忽视的事实:SFT和RL之间并非无缝衔接,而是存在一道分布上的断层。如果起点就是歪的,那么RL算法再强大,跑得越快,偏离目标也就越远。

要让多模态大模型在复杂推理任务上再进一步,未必总是需要更复杂的RL算法或海量的训练数据。

有时候,补上SFT和RL之间那缺失的一步对齐,模型自然会跑得更稳、更远。