首页

手游

资讯

专题

首页 > 教程攻略 > ai资讯 >OpenAI 的绝密项目「草莓」，对我们到底意味着什么？

OpenAI 的绝密项目「草莓」，对我们到底意味着什么？

来源：互联网时间：2026-05-30 16:28:42

这事儿吧，说来有点意思——OpenAI 凭着一颗「草莓」，在周末抢了好些版面，成了件

不算新鲜的新鲜事

。

新鲜的是，这是一个高级别的保密项目，目标是让 AI 「自主浏览互联网，执行深度研究」。可惜路透社没撬出更多技术细节，只提到采用了「后训练」的方式。说到后训练，这就不新鲜了——两个月前，OpenAI 联合创始人 John Schulman 在播客里就明确表示过，GPT-4 的进步，很大程度上要归功于后训练技术。他的原话是：「通过后训练去创造一个具备人们所关心功能的模型，非常复杂，需要大量投入和研发积累，这本身就会形成壁垒。」

如果「Strawberry」确实是 OpenAI 的重点项目，那不难想见，GPT-4 让他们尝到了甜头。家底厚实，底气就足，进一步加高技术壁垒，顺理成章。沿着一条已经检验过的技术路线继续迭代，本不是新鲜事——那为什么又成了大新闻呢？

一层一层，切开「草莓」

「Strawberry」的前身是「Q*」，一个去年年底就掀起过轩然大波的神秘存在。当时 Sam Altman 毫无征兆地被踢出董事会，连他自己都是在会议现场才被告知，整个公司、整个行业都被震住了。董事会给出的理由，是他在安全与风险管理上无法与团队达成一致——而那个风险，正跟绝密项目「Q*」有关。

这个项目原本由 Ilya Sutskever 带队，如今他已经离开 OpenAI 创业，做的正是 AI 安全相关业务。再联想到马斯克曾经表示这个项目「对人类构成了威胁」，很难不让人好奇里面到底藏着什么。

The Information 和路透社想方设法打探内部消息，最后也只能确认一件事：

数学运算能力是「Q*」的重点

。

图片来自：路透社

大模型擅「文」，处理语言文字几乎已和人类打个平手，但数学运算始终是短板。据路透社透露，即便「Q*」曾引发 OpenAI 巨变，当时它的表现也不过是小学生的计算水平。而根据最新爆出的信息，OpenAI 内部已经有项目在数学运算上的准确率达到了 90%，进步惊人。

图片来自：路透社

需要强调的是：现在并不能确认「Strawberry」究竟做到了哪一步。只能说，作为「Q*」的升级版，它大概率是一个继续在数学和计算领域寻求突破的项目。

「数学计算」和「推理」之间不能直接划等号，但却透露着 OpenAI 更大的野心。

老说推理，究竟在说什么

那么，「推理」到底是什么？这两个字在现实中有相当广阔的定义。今年年初，香港中文大学领衔的团队做过一个关于模型推理能力的全面梳理，推理最根本的定义有三重：

认知推理

：在不完整、不一致的知识中，得出有意义结论的能力。这有点像拼拼图——每一小片都是巨大图画的一角，随手抓两片肯定对不上，只能举着碎片慢慢拼凑，没有说明书和步骤图，全靠手感、靠直觉。

逻辑推理

：根据前提以及前提之间的关系，有条理地得出结论，并且结论在逻辑上有隐含关系或成立。数学解题就是典型的逻辑推理——有已知条件，有待求问题，一步一步推算出结果。这也是目前大模型研发里「最硬的一块骨头」。

自然语言推理

：整合多种知识——可以是显性的，也可以是隐性的——从而得出关于世界的新结论。喜欢看探案故事、推理小说的朋友应该很容易理解：就像碰上一桩凶杀案，书里隐&隐约约有些暗示，信息并不明确，你必须结合各种线索，推测出谁是凶手、犯罪过程是怎样的。

如果只看路透社拿到的 OpenAI 内部文件，「Strawberry」的目标是规划、访问互联网以及执行深度研究。这些看上去更像是最后一种自然语言推理，无非是进一步强化了一下，算不算推理能力的进步都不好说。但

OpenAI 对「推理」并不那么拘泥，而是有一套更宏大的愿景

。

John Schulman 自己对「推理」的定义是这样的：「推理意味着需要一些计算，或者需要一些演绎。从这个定义来看，要能够在处理任务的当时进行计算和逐步计算。」

可以看到，在他的定义里，推理和计算行为高度绑定，而且希望机器的推理是实时进行的——就像人类一样，接收信息的同时就能做分析和判读。不过，一个人即便数学不好，也不妨碍他有逻辑地想事情、完成各种类型的推理。那为什么机器的数学能力就这么重要？

可以这样理解：

数学从来都不只是做运算，它本身也是一种对信息的表达方式。

数学是一种更依赖符号形式和意义精确性的语言，1 就是 1，0 就是 0。当用计算符号和算式去呈现信息时，其实比自然语言更低维。换句话说，大模型之所以「能文」，本就是建立在「会算」的基础上——将自然语言转换成了计算机语言。这一点，早在 19 世纪，就被历史上最重要的数学家之一乔治·布尔（没错，就是创造了布尔变量的那位）奠定了理论基础。

布尔是个有虔诚宗教信仰的人，他甚至想通过数学推理来解释上帝的存在。不论他最终的结论如何，他留给世界的财富——也就是《思维规律的探究》——开篇便阐释了他宏大的目标：用微积分的符号语言，来表达推理这一思维活动的基本规律。这也解释了为什么一旦谈及 AI 在数学运算上的表现，人们期待的目光里就多了几分紧张：

攻破了数学语言，或许真的就离破解思维活动不远了。

AI 推理，怎么就了不起？

现在距离 AI 理解思维活动到底有多近？路透社认为，「Strawberry」的理论先驱应当是两年前斯坦福大学团队发表的 STaR 技术。STaR 的开发者之一、斯坦福大学教授 Noah Goodman 在接受路透社采访时表示，他跟「Strawberry」没有关系，但如果真的追平人类的推理能力，那是既令人兴奋又令人恐惧的事。

STaR 的特点是具备特定条件下的推理能力：先拿一个已经训练好的模型，再准备一个小型数据集（里面包含推理步骤），喂进去训练。然后让模型生成解决问题的推理过程，如果结果正确、符合答案，就判定为有效推理。接着不断微调、不断让它自我学习。最终的测试结果显示，这种方式确实能提升模型在数学运算上的表现。换句话说，在特定条件和训练方式下，确实可以让模型效仿推理过程，从而具备一定的推理能力。

这样辛苦地挖掘和塑造 AI 的推理能力，对日常使用而言有什么意义？

路透社的线人透露，OpenAI 特别希望能达成「CUA」——computer-using agent，即模型能够根据文档和其他材料提供的信息，自主采取行动。这是 OpenAI 提出的「五阶评级」中的第三阶：代行者，能够采取行动的系统。

图片来自：彭博社

现在的对话 chatbot 只是第一阶，而「Strawberry」据称已经接近第二阶。可以想见，

推理能力是第三阶段的必要前提

——只有具备了推理能力，通过各种信息推演出用户意图，才有可能丝滑地完成服务调度、采取行动。

以鸿蒙的 Harmony Intelligence 为例，这是鸿蒙首次将 AI 能力融入系统，除了提供基于生成式 AI 的图像、声音修复技术，还有惊艳的「控件 AI 化」——各种第三方应用可以调用系统空间处理请求，打破应用与应用之间的壁垒。

再比如很快也要亮相的 Apple Intelligence，也是旨在为用户创造更一体化、无缝衔接的体验。

在之前的讨论中，我们就提到 AI 不应当只作为一种服务，而是要糅合进操作系统里，共同存在。这恰恰也来自 OpenAI 联合创始人 Andrej Karpathy 的设想。这就是 AI 推理能力备受瞩目的原因之一——只要你拥有一台智能手机，就不妨畅想一种可能的未来：

AI 成为智能手机新的操作系统，而大模型就是智能操作系统的核心

。