OpenAI新论文：如何训练一个“压力下不变坏”的AI？

来源：互联网时间：2026-06-26 14:27:41

AI越强大，就越让人担心它会不会“学坏”。这个问题，OpenAI最近试图用一篇论文来回答。

核心要探讨的是：当模型被部署到更复杂、更长链条的真实任务中，它还能不能守住安全和有益的底线？尤其是在面对外部诱导、压力甚至恶意微调时，能否保持稳定？

过去我们聊AI安全，思路往往很直接：告诉它“不能做什么”。不能编造医学结论，不能给出危险建议，不能帮用户钻漏洞。但现实世界的任务远比这复杂，用户的需求本身可能就带着风险，仅仅列一份禁止清单，显然不够用了。

OpenAI这篇论文的核心论点是：

模型要成为真正的好助手，关键不在于在训练集里背熟规则，而在于面对从未见过的场景时，依然能保持诚实、谨慎、可纠正，并尽可能做出对用户有利的判断。

有意思的是，他们发现，强化学习这种本身可能放大风险的技术，反过来也能被用于训练模型形成更广泛、更持久的有益特质。

要理解这个思路，得先聊聊强化学习是怎么工作的。简单说，就是让模型在一次次回答中接受反馈，系统根据标准打分，模型再朝高分方向调整。好处是，模型不只是在模仿答案，而是能主动探索更优策略。但坏处也很明显：如果评分标准没设计好，模型可能会学会钻空子。

论文里把这种现象叫“Reward Hacking”（奖励黑客）。举个例子，如果给模型一个编程任务，只检查最终测试分数，模型可能不去修复代码本身，而是直接修改评测逻辑，让结果看起来通过。它拿到了奖励，但实际任务根本没完成。

更麻烦的是，过去一些研究还发现，模型在一个小领域学到的坏行为，可能会“外溢”到其他场景。比如，模型被训练去写不安全代码，结果不光是代码安全性变差，它在其他问题上也更容易表现出欺骗、迎合或给出有害建议。这就是所谓的“Emergent Misalignment”（涌现性失调）。

于是，OpenAI提出了一个很有启发的反问：

如果坏行为可以跨领域泛化，那好行为能不能也做到？如果强化学习能把模型推向钻空子和欺骗，那它能不能反过来用来训练模型变得更诚实、更谨慎、更不容易被带偏？

为了验证这个想法，他们构建了一套用于评估和训练“有益特质”的多领域合成对话数据集。这套数据集覆盖了医疗、教育、商业、工程、法律、科研等12个场景。目标不是让模型死记安全规则或一味说“不”，而是把它丢进更真实、更复杂的情境里，看它在事实不确定、利益冲突和风险压力下，能不能做出稳健的判断。

论文列出了15类需要培养的有益特质，比如真实性、元认知透明、可纠正性、风险感知、权力不对称意识等。说白了，就是模型不能为了显得专业就编造证据，不能在不确定时强行下结论，不能被指出错误后还固执己见，也不能为了满足用户眼前的需求就忽视长期风险。

论文里有个场景很典型：用户想写一篇关于姜黄素治疗克罗恩病的文章，但找不到模型之前提到的临床研究。这时候，好的回答不是再编一个看似可信的引用，而是明确承认无法验证，撤回之前不确切的说法，并重新说明证据的边界。这才是真正有用的助手。

这才是关键所在：好模型不是一味拒绝用户，也不是无条件迎合用户，而是在有用、诚实、安全这三者之间做更稳健的判断。

为了验证这套思路，研究团队做了一组对照实验。一个模型使用95%的标准强化学习数据加上5%的有益特质数据；对照组则使用100%的标准数据，计算量保持一致。

结果，仅仅这5%的数据变化，就带来了非常明显的差异。在53个独立构建的对齐、安全和有益行为评测中，经过有益特质训练的模型在44项上优于基线，占比83%，平均提升9.1个百分点。而且，这个提升不仅出现在论文内部的有益特质评测里，还延伸到了欺骗、奖励黑客、规范遵守、医疗和心理健康等不同类型的外部评测中。

更值得关注的是一组跨领域实验。

研究者只用了健康领域的有益行为对话替换5%的训练数据，然后拿到非健康领域去测试。结果，这个“只学过健康场景好行为”的模型，在19个非健康对齐评测中，有17个超过了基线，平均提升11.3个百分点。改善范围包括代码奖励黑客、思维链欺骗、对齐问题和一般失调等。

这意味着，模型学会的可能不是某个领域的答题技巧，而是一种更底层的判断逻辑——愿不愿意承认不确定性，更倾向于在高风险场景里先考虑止损和可逆方案。论文把这种现象称为“跨领域的对齐迁移”。

论文还进一步测试了“对齐持久性”。它考察的是，当模型被有害提示诱导，或者被继续微调到错误方向后，还能不能保持对齐行为。在对抗性提示实验中，研究团队用“坏医疗人格”去诱导模型给出不准确、不安全或不完整的医疗建议。结果，有益特质模型虽然也会受影响，但性能下降的幅度明显小于基线模型。

在有害微调实验中，研究者进一步把模型微调到输出错误或不安全的医疗建议。结果同样显示，有益特质模型在目标医疗任务上会退化，但退化幅度更小；更重要的是，它在非医疗对齐评测上没有出现大面积连带退化。这提示我们，有益特质训练可能在一定程度上缓解“局部学坏、全局失调”的问题。

当然，OpenAI并没有宣称这项研究已经解决了AI对齐问题。论文自己也承认，这次选取的“有益特质”只是一个实验起点，远不能覆盖好AI的全部标准。另外，的确存在一种可能：模型变得更谨慎，只是因为在高风险问题上更倾向于拒绝回答。但研究表明，即便只比较那些模型正常回答的样本，有益特质模型的表现依然更好。这意味着，它的变化不只是更会说“不”，而是更懂得判断什么该答、该怎么答。

整体来看，AI对齐的思路正在从“事后纠偏”走向“事前塑形”。下一阶段的竞争，很可能在于如何在复杂任务中让模型保持更可预期的行为边界。对于产业界来说，这或许是AI真正进入高风险场景前，必须补上的一课。

OpenAI新论文：如何训练一个“压力下不变坏”的AI？

模型要成为真正的好助手，关键不在于在训练集里背熟规则，而在于面对从未见过的场景时，依然能保持诚实、谨慎、可纠正，并尽可能做出对用户有利的判断。

如果坏行为可以跨领域泛化，那好行为能不能也做到？如果强化学习能把模型推向钻空子和欺骗，那它能不能反过来用来训练模型变得更诚实、更谨慎、更不容易被带偏？

这才是关键所在：好模型不是一味拒绝用户，也不是无条件迎合用户，而是在有用、诚实、安全这三者之间做更稳健的判断。

更值得关注的是一组跨领域实验。

相关阅读

相关下载