刚刚,OpenAI 最强推理模型 o3 发布,首次能用图片思考,奥特曼:天才水平
来源:互联网
时间:2026-06-26 07:18:04
OpenAI 正式发布了新一代推理模型 o3 和 o4-mini,即日起面向 ChatGPT Plus、Pro 和 Team 用户开放,企业版和教育版用户则在一周后获得权限。同时,o3-pro 也已在路上,预计数周内发布。免费用户通过“Think”模式即可使用 o4-mini,速率限制保持不变。对开发者而言,通过 Chat Completions API 和 Responses API 即可调用,支持推理摘要与函数调用优化,网页搜索等内置工具也即将接入。
---
## OpenAI 最强推理模型 o3 发布,GPT-5 还会远吗?
最新发布的 o3 和 o4-mini,堪称 o 系列迄今为止最智能的模型。它们在推理能力、工具调用和多模态处理上都实现了明显跃升,能花更多时间琢磨复杂问题,并且首次全方位支持网页搜索、文件分析、Python 代码执行、视觉深度推理,甚至图像生成。从高级研究人员到普通用户,新模型适用的场景显然被拉宽了不少。
o3 和 o4-mini 可以调用 ChatGPT 中的工具,并通过 API 中的函数访问自定义工具。
背后是强化学习的功劳。OpenAI 专门训练这两个模型如何使用工具——不光是知道怎么用、什么时候用,还能在不到一分钟内,以正确的格式生成可靠的答案。举个例子,当被问到“加州夏季能源使用量与去年相比如何”,模型可以自己上网查询公共能源消耗数据,写 Python 代码做预测,生成可视化图表,再解释预测依据——这一整套动作下来,几乎是无缝衔接。
更要紧的是,整个推理搜索过程非常灵活:模型可以反复调用搜索引擎,交叉验证结果;遇到知识盲区,还会进一步挖掘信息,整合跨类型的输出。
在今天凌晨的直播里,OpenAI 总裁 Greg Brockman 也罕见露面。演示者展示了新模型如何结合用户的兴趣,去发现用户自己可能都不知道的有趣内容。在启用“记忆”功能后,模型了解到演示者的两大爱好是跳伞和音乐——但它没有分别聊这两个话题,而是找到了一个把两者联系起来的交叉领域:科学家录制健康珊瑚礁的声音,再用水下扬声器回放录音,从而加速新珊瑚和鱼类的定居,帮助珊瑚礁更快愈合和再生。
不仅如此,在内容创建过程中,模型还自动生成了一篇完整的博客文章——先用数据分析工具做可视化,再用 Canvas 写文章,每一步都附上了引用来源。
作为最新的旗舰推理模型,o3 在编程、数学、科学和视觉感知领域创下了新纪录。比如在 Codeforces、SWE-bench 和 MMMU 等基准测试中,视觉任务准确率达到 87.5%,MathVista 也有 75.4%。外部专家评估显示,o3 在编程、商业咨询和创意构思上的重大错误率,比 o1 低了 20%;在生物学、数学和工程领域,它还能生成并批判性评估新颖假设,适合处理复杂查询。
o4-mini 则走的是“体型更小”路线,专为快速、低成本推理优化。在 AIME 2024 和 2025 数学测试中,准确率分别达到了 92.7% 和 93.4%;在非 STEM 和数据科学任务中,表现优于 o3-mini。效率更高,能处理更多请求,也更适合需要快速响应的场景。
从性能对比来看,o3 和 o4-mini 在 AIME、Codeforces、GPQA 和 MMMU 等测试中全面超越前代,指令遵循和响应质量也显著提升。加上记忆功能和历史对话引用,回答变得更个性化、更贴切。
在整个开发过程中,OpenAI 观察到大规模强化学习呈现出与 GPT 系列预训练相同的趋势:“计算量越大,性能越好”。沿着这条路径,OpenAI 在训练计算量和推理时间上都提升了一个数量级,但性能提升依然明显。在相同延迟和成本下,o3 的表现比 o1 更强;而且给它更多时间思考,效果还能更好。
当然,OpenAI 也没忘了画饼:o3 和 o4-mini 已经展现出 o 系列的推理能力与 GPT 系列自然对话及工具使用的融合趋势,而未来的模型(GPT-5)预计会进一步整合这些优势。
---
## 能用图片“思考”,就是偶尔会“想太多”
o3 和 o4-mini 也是 o 系列最新的视觉推理模型。官方介绍说,模型首次将图像直接融入思维链,开启了一种融合视觉与文本推理的全新解题方式。配合 Python 数据分析、网络搜索和图像生成等工具,还能应对更复杂的任务。
不管是上传白板照片、教科书图表还是手绘草图,哪怕图像糊了、反转了、质量不佳,模型也能准确解读,并直接调用工具处理图片——裁剪、旋转、缩放,都不在话下。
重点是,这些功能是原生的,不需要依赖单独的专用模型。
博主 @danshipper 就用一张模糊的照片找到了一个婴儿车品牌——整个过程中,模型搜索了数十个网页。
我也上传了武康大楼的图片,o3 准确识别到建筑位于淮海路附近,不过——它并没有给出建筑的名字。
当然,这种思考方式也不是没有“缺陷”:
医学博士 @DeryaTR_ 认为 o3 很聪明:“当我向 o3 提出有挑战性的临床或医学问题时,它的回答听起来就像来自顶级医生——准确、全面、基于证据、充满信心,非常专业。” Altman 也转发了他的说法,称“o3 达到或接近天才的水平”。在 @DeryaTR_ 看来,o4-mini 则稍微“低调”一些,回答细节不如 o3 详细,但更简洁、流畅,甚至可能更具“情感”。
我们也上手测试了一些问题。
o3 回答错误 ❌
o4-mini 回答正确 ✅
下面的实测中,虽然 o3 给出了完整的推理步骤,但回答还是错了。
o3 回答错误 ❌
就在 OpenAI 上新之际,细心的网友也发现,新款 Gemini 将于下周(4 月 22 日)发布。
DeepSeek R2、Anthropic 的 Claude 4 以及马斯克剧透的“Grok-3.5”也预计在本月陆续登场。可以说,整个 4 月是 AI 领域最“内卷”的一个月,很大程度上将决定未来一年行业的发展走向。更强的模型、更低的成本、更广的场景——这些最终都会通向一个更智能、更普惠的未来。
---
## 附 OpenAI 团队在 X 平台上举办的 AMA 总结:
- OpenAI 计划在未来几个月发布一个开放的模型,新的图像生成功能将很快在 API 中推出。
- o3 现已在 API 中提供服务,更先进的 o3-pro 模型正在开发中,预计很快发布。
- 强化学习微调(Reinforcement fine-tuning)很快将全面开放,允许用户公开进行微调,或使用推理模型进行强化学习。
- 在 Responses API 中,开发者消息与系统消息之间的切换是自动处理的——将系统消息发送给 o3,或将开发者消息发送给 GPT-4.1,会自动完成转换。
- 目前,ChatCompletions 或 Responses API 还不支持托管工具。
- 在 o3 和 o4-mini 的推理阶段,Web 搜索、文件搜索和代码解释器等工具会被积极使用。这些工具目前在 ChatGPT 中已支持,但尚未在 API 中支持——预计很快就会加入。
- OpenAI 正在积极开发 Agents SDK 中的线程支持,以改善对话历史和记忆。
- OpenAI 认为低代码平台在 Agents SDK 中的建议很有趣,欢迎开发者就最有用的功能提供反馈。
- Codex CLI 包含多个文档化的审批模式,允许用户为每个操作或会话选择模式。
- Codex CLI 的目标不是替代 Cursor、Windsurf 等 IDE 工具,而是设计用在用户使用主要 IDE 时运行后台任务。
- 比较 Codex 的编码能力和深度研究能力,取决于选择的模型(o3 或 o4-mini);Codex 特别利用函数调用,直接在用户计算机上执行命令。
- 新模型主要训练于通用浏览、Python/代码执行工具,以及对开发者有用的自定义工具。
- 虽然 GPT-4.5 更强大,但它更慢且计算密集;GPT-4.1 为开发者提供了一个更快、更具成本效益的选择。
- GPT-4.1 的一些改进已经整合到 ChatGPT 中,更多改进将在未来推出。
- OpenAI 承认“4o”和“o4”等模型名称之间存在命名混淆,并计划很快简化模型命名。