OpenAI震撼发布o1大模型！RL深度思考，技术差距拉开

来源：互联网时间：2026-05-30 08:24:25

OpenAI这次终于放出了那个传说中的“大招”——奥特曼在推特上预热了很久的“草莓”（Strawberry），现在它真身降临，代号o1。

说实话，这次带来的震撼确实不小。国内大模型的厂商们好不容易在4o的多模态能力上追得气喘吁吁，结果OpenAI一转身又杀回了纯文本领域——不对啊，不是说这块大家都已经搞得差不多、没什么空间了吗？

奥特曼自己也承认，o1目前还有很多缺陷。但有趣的是，他特意强调了一句：即便有缺陷，你第一次上手用的时候，照样会被它的表现震到。

从从业者的角度来看，这其实是一件好事。老板们发现这个赛道里能讲的故事还很大、饼还远远没被分完，资本还能继续往里投。百万级别的数据清洗工们，饭碗又稳了一阵子。

说得直白点——这等于把从愚昧之巅到绝望之谷的那个周期，又往后延了一大截。

OpenAI o1到底有多强？

这次发布的o1，核心定位非常明确：复杂任务推理。它主攻的领域包括竞赛级别的编程题、奥赛难度的数学题等，而且效果的提升跨度非常大——你可以粗略理解为，能力直接从高中生水平飙到了博士生水平。

举个例子，写代码这块：

在2024年国际信息学奥林匹克竞赛（IOI）的赛题上，o1拿到了213分，直接冲进了前49%的人类选手行列。这还不算什么，更猛的还在后面。

在全美高中生数学竞赛AIME上，o1拿到了74分——作为对比，GPT-4o只有12分。如果采样到1000次，配合奖励模型加权投票，分数能冲到93分。这意味着它已经能排进全美前500名，直接超过了美国数学奥林匹克（USAJMO/USAMO）的晋级线。

再来看GPQA——这是一个涵盖物理、化学和生物的高难度智力测试。OpenAI专门找了一批相关领域的博士专家来与o1同台竞技。结果呢？o1在GPQA-diamond题目上的得分，超过了一部分真正的博士专家。

视觉感知能力也不是短板。o1在MMMU上拿到了78.2%的分数，第一次让机器在综合多模态理解上达到了和人类专家比肩的水平。

还有一个非常有意思的细节：OpenAI在o1的基础上又专门加强了代码能力，以它为初始化训练了一个变体——o1-IOI。这个模型直接去参加了2024年的国际信息学奥林匹克竞赛（IOI）。和人类选手完全一样的条件：10小时内解决6道超高难度的竞赛题，每道题最多允许提交50次。最终o1-IOI拿到了216分。而在不限制提交次数的情况下，它更是轰出了362.14分——直接超过了金牌线。这种和人类顶尖选手同台竞技的测试，才是判断模型推理能力的终极标尺。

在Codeforces的竞技编程平台上，o1更是打出了惊人的1807分。

甚至安全性评分，这次也遥遥领先于之前的版本。

技术上最大的提升在哪？

以前的LLM，训练、对齐、推理三个阶段的耗时是有固定格局的。但到了o1这里，这个分布完全变了。

举个例子：一个表面上看起来并不复杂的任务，o1处理起来可能消耗掉690多个token，耗时超过5秒钟——这在以前的模型上是不可想象的。

在训练阶段，模型通过强化学习不断优化自身的“思维链”（Chain of Thought），识别并纠正逻辑错误，把复杂的步骤拆解成更小的单位，发现当前的方法行不通就果断换一种。

而在推理阶段，模型则会在呈现给用户的最终答案之外，额外生成一个更深层的、甚至可以说是隐藏的“内部思维链”（long internal chain of thought）。这相当于给COT又套了一层COT，形成了一种递归式的深度推演。

关于技术到底怎么实现的？

知乎上一位叫白苏苏的博主给出了一个非常直观的解释：思维链和内在思维链的关系大致可以这样理解——

但要注意的是，OpenAI对训练方式只透露了“强化学习”四个字。从推理速度的表现来看，模型在生成最终答案之前，大概率是先输出了大量的中间推理token，直到触发了某个特定的输出标记（比如 {output}），才真正把结果抛出来。

至于这个能力是怎么训练出来的，业内目前有不同的猜测。网友MoonCancer提出了三种可能性：

第一种情况——如果使用的只是常规的预训练数据集，中间的CoT部分完全是通过强化学习无中生有、自我演化出来的，那这就意味着LLM的推理领域基本上被终结了，我们离AGI又实实在在地近了一步。

第二种情况——如果是用GPT-4o这样的成熟模型合成大量高精度的CoT数据，然后让o1去模仿学习，最后再把过于细节的中间过程隐藏起来，那么这个贡献等价于把模型有效scale了10倍，是一种非常漂亮的模型增强方法。

第三种情况——如果是专门请人写了大量高质量的CoT数据，然后硬生生地喂给模型微调进去，那就应了那句话：有多少人工，就有多少智能。

但不管哪种情况更接近真相，可以预见的是，接下来各家的实验室一定会迅速跟进这个方向。大家又有新活儿干了，老板们总算不用那么焦虑了。从这个角度看，OpenAI这次确实是给整个行业打了一剂强心针。

OpenAI震撼发布o1大模型！RL深度思考，技术差距拉开

OpenAI o1到底有多强？

技术上最大的提升在哪？

关于技术到底怎么实现的？

相关阅读

相关下载