首页 > 教程攻略 > ai资讯 >OpenAI震撼发布o1大模型!RL深度思考,技术差距拉开

OpenAI震撼发布o1大模型!RL深度思考,技术差距拉开

来源:互联网 时间:2026-05-30 08:24:25

OpenAI这次终于放出了那个传说中的“大招”——奥特曼在推特上预热了很久的“草莓”(Strawberry),现在它真身降临,代号o1。

说实话,这次带来的震撼确实不小。国内大模型的厂商们好不容易在4o的多模态能力上追得气喘吁吁,结果OpenAI一转身又杀回了纯文本领域——不对啊,不是说这块大家都已经搞得差不多、没什么空间了吗?

奥特曼自己也承认,o1目前还有很多缺陷。但有趣的是,他特意强调了一句:即便有缺陷,你第一次上手用的时候,照样会被它的表现震到。

从从业者的角度来看,这其实是一件好事。老板们发现这个赛道里能讲的故事还很大、饼还远远没被分完,资本还能继续往里投。百万级别的数据清洗工们,饭碗又稳了一阵子。

说得直白点——这等于把从愚昧之巅到绝望之谷的那个周期,又往后延了一大截。

OpenAI o1到底有多强?

这次发布的o1,核心定位非常明确:复杂任务推理。它主攻的领域包括竞赛级别的编程题、奥赛难度的数学题等,而且效果的提升跨度非常大——你可以粗略理解为,能力直接从高中生水平飙到了博士生水平。

举个例子,写代码这块:

在2024年国际信息学奥林匹克竞赛(IOI)的赛题上,o1拿到了213分,直接冲进了前49%的人类选手行列。这还不算什么,更猛的还在后面。

在全美高中生数学竞赛AIME上,o1拿到了74分——作为对比,GPT-4o只有12分。如果采样到1000次,配合奖励模型加权投票,分数能冲到93分。这意味着它已经能排进全美前500名,直接超过了美国数学奥林匹克(USAJMO/USAMO)的晋级线。

再来看GPQA——这是一个涵盖物理、化学和生物的高难度智力测试。OpenAI专门找了一批相关领域的博士专家来与o1同台竞技。结果呢?o1在GPQA-diamond题目上的得分,超过了一部分真正的博士专家。

视觉感知能力也不是短板。o1在MMMU上拿到了78.2%的分数,第一次让机器在综合多模态理解上达到了和人类专家比肩的水平。

还有一个非常有意思的细节:OpenAI在o1的基础上又专门加强了代码能力,以它为初始化训练了一个变体——o1-IOI。这个模型直接去参加了2024年的国际信息学奥林匹克竞赛(IOI)。和人类选手完全一样的条件:10小时内解决6道超高难度的竞赛题,每道题最多允许提交50次。最终o1-IOI拿到了216分。而在不限制提交次数的情况下,它更是轰出了362.14分——直接超过了金牌线。这种和人类顶尖选手同台竞技的测试,才是判断模型推理能力的终极标尺。

在Codeforces的竞技编程平台上,o1更是打出了惊人的1807分。

甚至安全性评分,这次也遥遥领先于之前的版本。

技术上最大的提升在哪?

以前的LLM,训练、对齐、推理三个阶段的耗时是有固定格局的。但到了o1这里,这个分布完全变了。

举个例子:一个表面上看起来并不复杂的任务,o1处理起来可能消耗掉690多个token,耗时超过5秒钟——这在以前的模型上是不可想象的。

在训练阶段,模型通过强化学习不断优化自身的“思维链”(Chain of Thought),识别并纠正逻辑错误,把复杂的步骤拆解成更小的单位,发现当前的方法行不通就果断换一种。

而在推理阶段,模型则会在呈现给用户的最终答案之外,额外生成一个更深层的、甚至可以说是隐藏的“内部思维链”(long internal chain of thought)。这相当于给COT又套了一层COT,形成了一种递归式的深度推演。

关于技术到底怎么实现的?

知乎上一位叫白苏苏的博主给出了一个非常直观的解释:思维链和内在思维链的关系大致可以这样理解——

但要注意的是,OpenAI对训练方式只透露了“强化学习”四个字。从推理速度的表现来看,模型在生成最终答案之前,大概率是先输出了大量的中间推理token,直到触发了某个特定的输出标记(比如 {output}),才真正把结果抛出来。

至于这个能力是怎么训练出来的,业内目前有不同的猜测。网友MoonCancer提出了三种可能性:

第一种情况——如果使用的只是常规的预训练数据集,中间的CoT部分完全是通过强化学习无中生有、自我演化出来的,那这就意味着LLM的推理领域基本上被终结了,我们离AGI又实实在在地近了一步。

第二种情况——如果是用GPT-4o这样的成熟模型合成大量高精度的CoT数据,然后让o1去模仿学习,最后再把过于细节的中间过程隐藏起来,那么这个贡献等价于把模型有效scale了10倍,是一种非常漂亮的模型增强方法。

第三种情况——如果是专门请人写了大量高质量的CoT数据,然后硬生生地喂给模型微调进去,那就应了那句话:有多少人工,就有多少智能。

但不管哪种情况更接近真相,可以预见的是,接下来各家的实验室一定会迅速跟进这个方向。大家又有新活儿干了,老板们总算不用那么焦虑了。从这个角度看,OpenAI这次确实是给整个行业打了一剂强心针。

相关下载