首页 > 教程攻略 > ai资讯 >SFT别急着接RL！你的多模态大模型可能一直在“带伤训练”

SFT别急着接RL！你的多模态大模型可能一直在“带伤训练”

来源：互联网时间：2026-06-04 15:59:15

在多模态大模型的后训练流程里，业内似乎早已默认了一个“两步走”的范式：先做有监督微调（SFT），紧接着上强化学习（RL）。从DeepSeek到Qwen，从GRPO到DAPO，大家的精力都放在了如何优化RL算法上——提升稳定性、改进采样效率、设计更精巧的奖励函数。

但很少有人回过头来审视这个起点：从SFT到RL的这一步跳跃，真的就那么理所当然吗？

最近，一项由香港科技大学（广州）、南洋理工大学、清华大学等机构合作的研究（Beyond SFT-to-RL，简称PRISM）揭示了一个令人警惕的现象：

SFT不仅没有为后续的RL铺平道路，反而可能在悄悄埋下隐患。

被忽视的“隐形断层”：SFT到底做了什么？

先来看一组对比数据。在7个主流多模态基准上的平均准确率显示：

阶段	Qwen3-VL-4B	Qwen3-VL-8B
原始Instruct模型	59.7%	63.3%
SFT之后	56.8% (-3.0)	58.1% (-5.2)
SFT → GRPO	61.8%	63.3%

一个明显的趋势是：

SFT之后，模型的性能反而下降了。

对于8B模型，这个现象更为突出——性能先跌了5.2个百分点，之后辛辛苦苦做完强化学习，才勉强爬回基线水平。

这意味着什么？意味着后续的强化学习，很可能不是在“提升”模型，而是在“偿还”SFT阶段造成的性能损失。这并非孤例。在目前主流的强指令模型上，只要SFT数据引入的分布与原始基座模型不一致（例如使用来自GPT或Gemini的蒸馏数据），几乎都能观察到类似的性能回落。

原因其实很直接：这类经过大规模后训练的基座模型，其能力已经处于一个相对稳定和高位的状态。SFT强迫模型去模仿一套新的、通常更“窄”的数据分布，结果往往是旧有的广泛能力被“冲刷”掉，而新的能力又未能扎实建立。换句话说，

模型本身越强、越接近实际部署水平，SFT带来的分布偏移就越可能成为一个绕不开的“暗坑”。

这也正是PRISM这项研究存在的必要性。

其背后的核心问题，是机器学习中老生常谈的“分布漂移”。但在多模态场景下，这个问题表现得更为隐蔽和复杂。

问题根源：SFT引入的两类偏差

SFT在多模态任务中，主要会引入两类容易被忽视的偏差。

偏差一：表面模仿——Token级损失混淆了过程与结果

SFT的优化目标，是在均匀的Token级损失下模仿给定的演示轨迹。它并不区分什么是关键的“推理过程”，什么是次要的“格式化套话”。对模型而言，一个正确的逻辑步骤和一个固定的回答模板，在损失函数中的权重是一样的。

这导致的结果是，

模型可能只学会了让输出“长得像”标准答案，而不是真正“想得出”正确答案。

它习得的是表面的语言模式，而非深层的、忠实于问题的推理能力。

偏差二：感知与推理漂移在同一个损失函数中耦合

这是多模态场景特有的麻烦。与纯文本模型不同，多模态模型的漂移不是单一的，而是两种性质完全不同的失败模式在同时发生：

感知漂移
：模型对图像内容的识别和定位出现偏差，简单说就是“看错了”。
推理漂移
：模型基于视觉信息进行逻辑推导时失败，即“想歪了”。

这两种漂移的成因和纠正方式截然不同，但SFT却用同一个Token级别的损失函数将它们强行拟合在一起。当进入RL阶段时，模型往往已经在感知和推理两端都发生了偏移，变成了一个“既看不准，又想不对”的状态。

现有RL算法为什么救不了？

从GRPO到DAPO，再到GSPO，RL算法近期的确在不断进步。但它们主要解决的是

RL阶段内部的问题

，比如采样效率、梯度方差或策略崩溃。

没有任何一种主流RL算法被设计用来修复SFT阶段留下的分布偏差。

打个比方：这就像参加百米赛跑，SFT不仅没让你站上起跑线，反而把你向后推了50米。现有的RL算法都在研究如何跑得更快，但你的起点还在坑里。而PRISM要做的，就是在SFT和RL之间补上这缺失的一步——不仅把你拉回起跑线，还顺势往前推一把，让后续的RL只需要跑50米就能冲线。

PRISM的核心方案：三阶段流水线

PRISM打破了传统的两阶段范式，提出了一个全新的三阶段流水线：

SFT → 分布对齐 (PRISM) → RLVR

。

其关键创新，就在于中间新增的“分布对齐”阶段。

混合专家判别器

既然感知漂移和推理漂移是两类不同的偏差，就需要分开处理。为此，PRISM设计了一个混合专家判别器，它由两个专门化的专家模块组成：

感知专家 D_v
：专门评估模型的输出是否忠实于图像内容，旨在解决“看错了”的问题。
推理专家 D_r
：专门评估逻辑推理轨迹是否一致有效，旨在解决“想歪了”的问题。

最终的判别得分是两者的加权组合：

r(x,y) = α · D_v(x,c) + (1-α) · D_r(x,t)

。这种设计提供了

解耦的纠正信号

，避免了将两种不同的误差模式塞进一个标量奖励中，从而防止梯度信号变得嘈杂无效。

黑盒蒸馏：无需教师模型内部信息

PRISM的另一个巧妙之处在于它是

黑盒

操作的。许多知识蒸馏方法需要访问教师模型的logits（内部概率分布），这意味着你必须拥有教师模型的完整权重。然而在实际中，最强的模型往往只提供API接口。

PRISM完全在

响应级别

工作：从强大的黑盒模型（如Gemini 3 Flash）采集高质量输出作为正样本，从当前策略模型采样作为负样本，通过对抗博弈的方式来实现分布对齐。

这意味着，只要你能调用API，就能使用PRISM。

一个关键的设计决策：去掉KL正则化

传统的RL训练通常会加入KL散度约束，以防止策略偏离初始模型太远。但PRISM有意识地

去掉了这个约束

。道理很清晰：对齐阶段的目标正是要纠正SFT带来的分布偏差，如果再加一个把策略拉回SFT分布的KL约束，岂不是自相矛盾？

分布演变：对齐如何重塑起点

下面的示意图直观展示了模型输出分布的演变过程。从Base（基座）到Post-SFT（SFT后），再到Post-Alignment（对齐后），无论是推理步骤的数量分布，还是视觉描述项数的分布，都逐步向高质量的监督数据靠拢。

可以清晰地看到，Post-SFT（蓝线）与Supervision（黑线）之间仍有明显差距，而Post-Alignment（橙线）则大幅缩小了这一差距。更重要的是，这种改进在后续的Post-RLVR（绿线）阶段得以保持。

实验验证

研究在Qwen3-VL的4B和8B两个模型规模上，将PRISM与

GRPO、DAPO、GSPO

三种主流RL算法结合，并在

4个数学推理基准（MathVista, MathVerse, MathVision, WeMath）

和

3个通用多模态基准（MMMU, MMMU-Pro, HallusionBench）

上进行了全面验证。

论文中的主结果（下表，灰色行代表使用了PRISM）揭示了几个关键信号：

模型越强，PRISM带来的增益越大
：8B模型获得了平均+6.0的提升，而4B模型为+4.4。这表明能力更强的基座被SFT“伤害”得更深，也因此从分布对齐中受益更多。
PRISM在绝大多数子任务上取得了同基座下的最佳分数
（表中加粗部分），覆盖了数学推理和通用视觉理解两类任务。这意味着对齐带来的不是某个特定领域的局部优化，而是
分布层面的全局校准
。

消融实验：每一步都不可或缺

从消融实验结果可以清晰地看到每个组件的贡献：

去掉SFT阶段直接导致性能下降16.8个点
，这说明SFT作为能力“冷启动”的手段仍然不可替代。PRISM并非要取代SFT，而是修复其带来的副作用。
去掉对齐阶段性能下降4.4个点
，这与4B模型主表中的提升幅度完全对应，直接证明了分布对齐的有效性。
使用单个4B判别器替代MoE结构，性能下降3.4个点；仅使用文本判别器（无视觉专家），性能下降3.9个点。
后者尤其值得玩味：没有视觉感知能力的判别器只能捕捉表面模式（如格式、模板），这会导致策略学会“鹦鹉学舌”式的对齐——输出听起来像监督数据，但实际上并未准确描述图像内容。

结语

PRISM的出现，相当于为多模态大模型的后训练范式打上了一个关键的“补丁”。这个补丁的重要性，或许不亚于主程序本身。

它揭示了一个长期被忽视的事实：SFT和RL之间并非无缝衔接，而是存在一道分布上的断层。如果起点就是歪的，那么RL算法再强大，跑得越快，偏离目标也就越远。

要让多模态大模型在复杂推理任务上再进一步，未必总是需要更复杂的RL算法或海量的训练数据。

SFT别急着接RL！你的多模态大模型可能一直在“带伤训练”

SFT不仅没有为后续的RL铺平道路，反而可能在悄悄埋下隐患。

被忽视的“隐形断层”：SFT到底做了什么？

阶段

Qwen3-VL-4B

Qwen3-VL-8B

SFT之后，模型的性能反而下降了。

模型本身越强、越接近实际部署水平，SFT带来的分布偏移就越可能成为一个绕不开的“暗坑”。

问题根源：SFT引入的两类偏差

偏差一：表面模仿——Token级损失混淆了过程与结果

模型可能只学会了让输出“长得像”标准答案，而不是真正“想得出”正确答案。

偏差二：感知与推理漂移在同一个损失函数中耦合

感知漂移

推理漂移

现有RL算法为什么救不了？

RL阶段内部的问题

没有任何一种主流RL算法被设计用来修复SFT阶段留下的分布偏差。

PRISM的核心方案：三阶段流水线

SFT → 分布对齐 (PRISM) → RLVR

混合专家判别器

感知专家 D_v

推理专家 D_r

r(x,y) = α · D_v(x,c) + (1-α) · D_r(x,t)

解耦的纠正信号

黑盒蒸馏：无需教师模型内部信息

黑盒

响应级别

这意味着，只要你能调用API，就能使用PRISM。

一个关键的设计决策：去掉KL正则化

去掉了这个约束

分布演变：对齐如何重塑起点

实验验证

GRPO、DAPO、GSPO

4个数学推理基准（MathVista, MathVerse, MathVision, WeMath）

3个通用多模态基准（MMMU, MMMU-Pro, HallusionBench）

模型越强，PRISM带来的增益越大

PRISM在绝大多数子任务上取得了同基座下的最佳分数

分布层面的全局校准

消融实验：每一步都不可或缺

去掉SFT阶段直接导致性能下降16.8个点

去掉对齐阶段性能下降4.4个点

使用单个4B判别器替代MoE结构，性能下降3.4个点；仅使用文本判别器（无视觉专家），性能下降3.9个点。

结语

有时候，补上SFT和RL之间那缺失的一步对齐，模型自然会跑得更稳、更远。

相关阅读

相关下载