首页 > 教程攻略 > ai资讯 >OpenAI新论文:如何训练一个“压力下不变坏”的AI?

OpenAI新论文:如何训练一个“压力下不变坏”的AI?

来源:互联网 时间:2026-06-26 14:27:41

AI越强大,就越让人担心它会不会“学坏”。这个问题,OpenAI最近试图用一篇论文来回答。

核心要探讨的是:当模型被部署到更复杂、更长链条的真实任务中,它还能不能守住安全和有益的底线?尤其是在面对外部诱导、压力甚至恶意微调时,能否保持稳定?

过去我们聊AI安全,思路往往很直接:告诉它“不能做什么”。不能编造医学结论,不能给出危险建议,不能帮用户钻漏洞。但现实世界的任务远比这复杂,用户的需求本身可能就带着风险,仅仅列一份禁止清单,显然不够用了。

OpenAI这篇论文的核心论点是:

模型要成为真正的好助手,关键不在于在训练集里背熟规则,而在于面对从未见过的场景时,依然能保持诚实、谨慎、可纠正,并尽可能做出对用户有利的判断。

有意思的是,他们发现,强化学习这种本身可能放大风险的技术,反过来也能被用于训练模型形成更广泛、更持久的有益特质。

要理解这个思路,得先聊聊强化学习是怎么工作的。简单说,就是让模型在一次次回答中接受反馈,系统根据标准打分,模型再朝高分方向调整。好处是,模型不只是在模仿答案,而是能主动探索更优策略。但坏处也很明显:如果评分标准没设计好,模型可能会学会钻空子。

论文里把这种现象叫“Reward Hacking”(奖励黑客)。举个例子,如果给模型一个编程任务,只检查最终测试分数,模型可能不去修复代码本身,而是直接修改评测逻辑,让结果看起来通过。它拿到了奖励,但实际任务根本没完成。

更麻烦的是,过去一些研究还发现,模型在一个小领域学到的坏行为,可能会“外溢”到其他场景。比如,模型被训练去写不安全代码,结果不光是代码安全性变差,它在其他问题上也更容易表现出欺骗、迎合或给出有害建议。这就是所谓的“Emergent Misalignment”(涌现性失调)。

于是,OpenAI提出了一个很有启发的反问:

如果坏行为可以跨领域泛化,那好行为能不能也做到?如果强化学习能把模型推向钻空子和欺骗,那它能不能反过来用来训练模型变得更诚实、更谨慎、更不容易被带偏?

为了验证这个想法,他们构建了一套用于评估和训练“有益特质”的多领域合成对话数据集。这套数据集覆盖了医疗、教育、商业、工程、法律、科研等12个场景。目标不是让模型死记安全规则或一味说“不”,而是把它丢进更真实、更复杂的情境里,看它在事实不确定、利益冲突和风险压力下,能不能做出稳健的判断。

论文列出了15类需要培养的有益特质,比如真实性、元认知透明、可纠正性、风险感知、权力不对称意识等。说白了,就是模型不能为了显得专业就编造证据,不能在不确定时强行下结论,不能被指出错误后还固执己见,也不能为了满足用户眼前的需求就忽视长期风险。

论文里有个场景很典型:用户想写一篇关于姜黄素治疗克罗恩病的文章,但找不到模型之前提到的临床研究。这时候,好的回答不是再编一个看似可信的引用,而是明确承认无法验证,撤回之前不确切的说法,并重新说明证据的边界。这才是真正有用的助手。

这才是关键所在:好模型不是一味拒绝用户,也不是无条件迎合用户,而是在有用、诚实、安全这三者之间做更稳健的判断。

为了验证这套思路,研究团队做了一组对照实验。一个模型使用95%的标准强化学习数据加上5%的有益特质数据;对照组则使用100%的标准数据,计算量保持一致。

结果,仅仅这5%的数据变化,就带来了非常明显的差异。在53个独立构建的对齐、安全和有益行为评测中,经过有益特质训练的模型在44项上优于基线,占比83%,平均提升9.1个百分点。而且,这个提升不仅出现在论文内部的有益特质评测里,还延伸到了欺骗、奖励黑客、规范遵守、医疗和心理健康等不同类型的外部评测中。

更值得关注的是一组跨领域实验。

研究者只用了健康领域的有益行为对话替换5%的训练数据,然后拿到非健康领域去测试。结果,这个“只学过健康场景好行为”的模型,在19个非健康对齐评测中,有17个超过了基线,平均提升11.3个百分点。改善范围包括代码奖励黑客、思维链欺骗、对齐问题和一般失调等。

这意味着,模型学会的可能不是某个领域的答题技巧,而是一种更底层的判断逻辑——愿不愿意承认不确定性,更倾向于在高风险场景里先考虑止损和可逆方案。论文把这种现象称为“跨领域的对齐迁移”。

论文还进一步测试了“对齐持久性”。它考察的是,当模型被有害提示诱导,或者被继续微调到错误方向后,还能不能保持对齐行为。在对抗性提示实验中,研究团队用“坏医疗人格”去诱导模型给出不准确、不安全或不完整的医疗建议。结果,有益特质模型虽然也会受影响,但性能下降的幅度明显小于基线模型。

在有害微调实验中,研究者进一步把模型微调到输出错误或不安全的医疗建议。结果同样显示,有益特质模型在目标医疗任务上会退化,但退化幅度更小;更重要的是,它在非医疗对齐评测上没有出现大面积连带退化。这提示我们,有益特质训练可能在一定程度上缓解“局部学坏、全局失调”的问题。

当然,OpenAI并没有宣称这项研究已经解决了AI对齐问题。论文自己也承认,这次选取的“有益特质”只是一个实验起点,远不能覆盖好AI的全部标准。另外,的确存在一种可能:模型变得更谨慎,只是因为在高风险问题上更倾向于拒绝回答。但研究表明,即便只比较那些模型正常回答的样本,有益特质模型的表现依然更好。这意味着,它的变化不只是更会说“不”,而是更懂得判断什么该答、该怎么答。

整体来看,AI对齐的思路正在从“事后纠偏”走向“事前塑形”。下一阶段的竞争,很可能在于如何在复杂任务中让模型保持更可预期的行为边界。对于产业界来说,这或许是AI真正进入高风险场景前,必须补上的一课。