首页 > 教程攻略 > ai教程 >刚刚，OpenAI 最强推理模型 o3 发布，首次能用图片思考，奥特曼：天才水平

刚刚，OpenAI 最强推理模型 o3 发布，首次能用图片思考，奥特曼：天才水平

来源：互联网时间：2026-06-26 07:18:04

OpenAI 正式发布了新一代推理模型 o3 和 o4-mini，即日起面向 ChatGPT Plus、Pro 和 Team 用户开放，企业版和教育版用户则在一周后获得权限。同时，o3-pro 也已在路上，预计数周内发布。免费用户通过“Think”模式即可使用 o4-mini，速率限制保持不变。对开发者而言，通过 Chat Completions API 和 Responses API 即可调用，支持推理摘要与函数调用优化，网页搜索等内置工具也即将接入。 --- ## OpenAI 最强推理模型 o3 发布，GPT-5 还会远吗？最新发布的 o3 和 o4-mini，堪称 o 系列迄今为止最智能的模型。它们在推理能力、工具调用和多模态处理上都实现了明显跃升，能花更多时间琢磨复杂问题，并且首次全方位支持网页搜索、文件分析、Python 代码执行、视觉深度推理，甚至图像生成。从高级研究人员到普通用户，新模型适用的场景显然被拉宽了不少。 o3 和 o4-mini 可以调用 ChatGPT 中的工具，并通过 API 中的函数访问自定义工具。

背后是强化学习的功劳。OpenAI 专门训练这两个模型如何使用工具——不光是知道怎么用、什么时候用，还能在不到一分钟内，以正确的格式生成可靠的答案。举个例子，当被问到“加州夏季能源使用量与去年相比如何”，模型可以自己上网查询公共能源消耗数据，写 Python 代码做预测，生成可视化图表，再解释预测依据——这一整套动作下来，几乎是无缝衔接。更要紧的是，整个推理搜索过程非常灵活：模型可以反复调用搜索引擎，交叉验证结果；遇到知识盲区，还会进一步挖掘信息，整合跨类型的输出。

在今天凌晨的直播里，OpenAI 总裁 Greg Brockman 也罕见露面。演示者展示了新模型如何结合用户的兴趣，去发现用户自己可能都不知道的有趣内容。在启用“记忆”功能后，模型了解到演示者的两大爱好是跳伞和音乐——但它没有分别聊这两个话题，而是找到了一个把两者联系起来的交叉领域：科学家录制健康珊瑚礁的声音，再用水下扬声器回放录音，从而加速新珊瑚和鱼类的定居，帮助珊瑚礁更快愈合和再生。

不仅如此，在内容创建过程中，模型还自动生成了一篇完整的博客文章——先用数据分析工具做可视化，再用 Canvas 写文章，每一步都附上了引用来源。作为最新的旗舰推理模型，o3 在编程、数学、科学和视觉感知领域创下了新纪录。比如在 Codeforces、SWE-bench 和 MMMU 等基准测试中，视觉任务准确率达到 87.5%，MathVista 也有 75.4%。外部专家评估显示，o3 在编程、商业咨询和创意构思上的重大错误率，比 o1 低了 20%；在生物学、数学和工程领域，它还能生成并批判性评估新颖假设，适合处理复杂查询。 o4-mini 则走的是“体型更小”路线，专为快速、低成本推理优化。在 AIME 2024 和 2025 数学测试中，准确率分别达到了 92.7% 和 93.4%；在非 STEM 和数据科学任务中，表现优于 o3-mini。效率更高，能处理更多请求，也更适合需要快速响应的场景。

从性能对比来看，o3 和 o4-mini 在 AIME、Codeforces、GPQA 和 MMMU 等测试中全面超越前代，指令遵循和响应质量也显著提升。加上记忆功能和历史对话引用，回答变得更个性化、更贴切。在整个开发过程中，OpenAI 观察到大规模强化学习呈现出与 GPT 系列预训练相同的趋势：“计算量越大，性能越好”。沿着这条路径，OpenAI 在训练计算量和推理时间上都提升了一个数量级，但性能提升依然明显。在相同延迟和成本下，o3 的表现比 o1 更强；而且给它更多时间思考，效果还能更好。当然，OpenAI 也没忘了画饼：o3 和 o4-mini 已经展现出 o 系列的推理能力与 GPT 系列自然对话及工具使用的融合趋势，而未来的模型（GPT-5）预计会进一步整合这些优势。 --- ## 能用图片“思考”，就是偶尔会“想太多” o3 和 o4-mini 也是 o 系列最新的视觉推理模型。官方介绍说，模型首次将图像直接融入思维链，开启了一种融合视觉与文本推理的全新解题方式。配合 Python 数据分析、网络搜索和图像生成等工具，还能应对更复杂的任务。不管是上传白板照片、教科书图表还是手绘草图，哪怕图像糊了、反转了、质量不佳，模型也能准确解读，并直接调用工具处理图片——裁剪、旋转、缩放，都不在话下。

重点是，这些功能是原生的，不需要依赖单独的专用模型。

博主 @danshipper 就用一张模糊的照片找到了一个婴儿车品牌——整个过程中，模型搜索了数十个网页。

我也上传了武康大楼的图片，o3 准确识别到建筑位于淮海路附近，不过——它并没有给出建筑的名字。

当然，这种思考方式也不是没有“缺陷”：

医学博士 @DeryaTR_ 认为 o3 很聪明：“当我向 o3 提出有挑战性的临床或医学问题时，它的回答听起来就像来自顶级医生——准确、全面、基于证据、充满信心，非常专业。” Altman 也转发了他的说法，称“o3 达到或接近天才的水平”。在 @DeryaTR_ 看来，o4-mini 则稍微“低调”一些，回答细节不如 o3 详细，但更简洁、流畅，甚至可能更具“情感”。我们也上手测试了一些问题。

o3 回答错误 ❌

o4-mini 回答正确 ✅ 下面的实测中，虽然 o3 给出了完整的推理步骤，但回答还是错了。

o3 回答错误 ❌ 就在 OpenAI 上新之际，细心的网友也发现，新款 Gemini 将于下周（4 月 22 日）发布。

DeepSeek R2、Anthropic 的 Claude 4 以及马斯克剧透的“Grok-3.5”也预计在本月陆续登场。可以说，整个 4 月是 AI 领域最“内卷”的一个月，很大程度上将决定未来一年行业的发展走向。更强的模型、更低的成本、更广的场景——这些最终都会通向一个更智能、更普惠的未来。 --- ## 附 OpenAI 团队在 X 平台上举办的 AMA 总结：

- OpenAI 计划在未来几个月发布一个开放的模型，新的图像生成功能将很快在 API 中推出。 - o3 现已在 API 中提供服务，更先进的 o3-pro 模型正在开发中，预计很快发布。 - 强化学习微调（Reinforcement fine-tuning）很快将全面开放，允许用户公开进行微调，或使用推理模型进行强化学习。 - 在 Responses API 中，开发者消息与系统消息之间的切换是自动处理的——将系统消息发送给 o3，或将开发者消息发送给 GPT-4.1，会自动完成转换。 - 目前，ChatCompletions 或 Responses API 还不支持托管工具。 - 在 o3 和 o4-mini 的推理阶段，Web 搜索、文件搜索和代码解释器等工具会被积极使用。这些工具目前在 ChatGPT 中已支持，但尚未在 API 中支持——预计很快就会加入。 - OpenAI 正在积极开发 Agents SDK 中的线程支持，以改善对话历史和记忆。 - OpenAI 认为低代码平台在 Agents SDK 中的建议很有趣，欢迎开发者就最有用的功能提供反馈。 - Codex CLI 包含多个文档化的审批模式，允许用户为每个操作或会话选择模式。 - Codex CLI 的目标不是替代 Cursor、Windsurf 等 IDE 工具，而是设计用在用户使用主要 IDE 时运行后台任务。 - 比较 Codex 的编码能力和深度研究能力，取决于选择的模型（o3 或 o4-mini）；Codex 特别利用函数调用，直接在用户计算机上执行命令。 - 新模型主要训练于通用浏览、Python/代码执行工具，以及对开发者有用的自定义工具。 - 虽然 GPT-4.5 更强大，但它更慢且计算密集；GPT-4.1 为开发者提供了一个更快、更具成本效益的选择。 - GPT-4.1 的一些改进已经整合到 ChatGPT 中，更多改进将在未来推出。 - OpenAI 承认“4o”和“o4”等模型名称之间存在命名混淆，并计划很快简化模型命名。

刚刚，OpenAI 最强推理模型 o3 发布，首次能用图片思考，奥特曼：天才水平

相关阅读

相关下载