首页 > 教程攻略 > ai资讯 >OpenAI 的绝密项目「草莓」,对我们到底意味着什么?

OpenAI 的绝密项目「草莓」,对我们到底意味着什么?

来源:互联网 时间:2026-05-30 16:28:42

这事儿吧,说来有点意思——OpenAI 凭着一颗「草莓」,在周末抢了好些版面,成了件

不算新鲜的新鲜事

新鲜的是,这是一个高级别的保密项目,目标是让 AI 「自主浏览互联网,执行深度研究」。可惜路透社没撬出更多技术细节,只提到采用了「后训练」的方式。说到后训练,这就不新鲜了——两个月前,OpenAI 联合创始人 John Schulman 在播客里就明确表示过,GPT-4 的进步,很大程度上要归功于后训练技术。他的原话是:「通过后训练去创造一个具备人们所关心功能的模型,非常复杂,需要大量投入和研发积累,这本身就会形成壁垒。」

如果「Strawberry」确实是 OpenAI 的重点项目,那不难想见,GPT-4 让他们尝到了甜头。家底厚实,底气就足,进一步加高技术壁垒,顺理成章。沿着一条已经检验过的技术路线继续迭代,本不是新鲜事——那为什么又成了大新闻呢?

一层一层,切开「草莓」

「Strawberry」的前身是「Q*」,一个去年年底就掀起过轩然大波的神秘存在。当时 Sam Altman 毫无征兆地被踢出董事会,连他自己都是在会议现场才被告知,整个公司、整个行业都被震住了。董事会给出的理由,是他在安全与风险管理上无法与团队达成一致——而那个风险,正跟绝密项目「Q*」有关。

这个项目原本由 Ilya Sutskever 带队,如今他已经离开 OpenAI 创业,做的正是 AI 安全相关业务。再联想到马斯克曾经表示这个项目「对人类构成了威胁」,很难不让人好奇里面到底藏着什么。

The Information 和路透社想方设法打探内部消息,最后也只能确认一件事:

数学运算能力是「Q*」的重点

图片来自:路透社

大模型擅「文」,处理语言文字几乎已和人类打个平手,但数学运算始终是短板。据路透社透露,即便「Q*」曾引发 OpenAI 巨变,当时它的表现也不过是小学生的计算水平。而根据最新爆出的信息,OpenAI 内部已经有项目在数学运算上的准确率达到了 90%,进步惊人。

图片来自:路透社

需要强调的是:现在并不能确认「Strawberry」究竟做到了哪一步。只能说,作为「Q*」的升级版,它大概率是一个继续在数学和计算领域寻求突破的项目。

「数学计算」和「推理」之间不能直接划等号,但却透露着 OpenAI 更大的野心。

老说推理,究竟在说什么

那么,「推理」到底是什么?这两个字在现实中有相当广阔的定义。今年年初,香港中文大学领衔的团队做过一个关于模型推理能力的全面梳理,推理最根本的定义有三重:

认知推理

:在不完整、不一致的知识中,得出有意义结论的能力。这有点像拼拼图——每一小片都是巨大图画的一角,随手抓两片肯定对不上,只能举着碎片慢慢拼凑,没有说明书和步骤图,全靠手感、靠直觉。

逻辑推理

:根据前提以及前提之间的关系,有条理地得出结论,并且结论在逻辑上有隐含关系或成立。数学解题就是典型的逻辑推理——有已知条件,有待求问题,一步一步推算出结果。这也是目前大模型研发里「最硬的一块骨头」。

自然语言推理

:整合多种知识——可以是显性的,也可以是隐性的——从而得出关于世界的新结论。喜欢看探案故事、推理小说的朋友应该很容易理解:就像碰上一桩凶杀案,书里隐&隐约约有些暗示,信息并不明确,你必须结合各种线索,推测出谁是凶手、犯罪过程是怎样的。

如果只看路透社拿到的 OpenAI 内部文件,「Strawberry」的目标是规划、访问互联网以及执行深度研究。这些看上去更像是最后一种自然语言推理,无非是进一步强化了一下,算不算推理能力的进步都不好说。但

OpenAI 对「推理」并不那么拘泥,而是有一套更宏大的愿景

John Schulman 自己对「推理」的定义是这样的:「推理意味着需要一些计算,或者需要一些演绎。从这个定义来看,要能够在处理任务的当时进行计算和逐步计算。」

可以看到,在他的定义里,推理和计算行为高度绑定,而且希望机器的推理是实时进行的——就像人类一样,接收信息的同时就能做分析和判读。不过,一个人即便数学不好,也不妨碍他有逻辑地想事情、完成各种类型的推理。那为什么机器的数学能力就这么重要?

可以这样理解:

数学从来都不只是做运算,它本身也是一种对信息的表达方式。

数学是一种更依赖符号形式和意义精确性的语言,1 就是 1,0 就是 0。当用计算符号和算式去呈现信息时,其实比自然语言更低维。换句话说,大模型之所以「能文」,本就是建立在「会算」的基础上——将自然语言转换成了计算机语言。这一点,早在 19 世纪,就被历史上最重要的数学家之一乔治·布尔(没错,就是创造了布尔变量的那位)奠定了理论基础。

布尔是个有虔诚宗教信仰的人,他甚至想通过数学推理来解释上帝的存在。不论他最终的结论如何,他留给世界的财富——也就是《思维规律的探究》——开篇便阐释了他宏大的目标:用微积分的符号语言,来表达推理这一思维活动的基本规律。这也解释了为什么一旦谈及 AI 在数学运算上的表现,人们期待的目光里就多了几分紧张:

攻破了数学语言,或许真的就离破解思维活动不远了。

AI 推理,怎么就了不起?

现在距离 AI 理解思维活动到底有多近?路透社认为,「Strawberry」的理论先驱应当是两年前斯坦福大学团队发表的 STaR 技术。STaR 的开发者之一、斯坦福大学教授 Noah Goodman 在接受路透社采访时表示,他跟「Strawberry」没有关系,但如果真的追平人类的推理能力,那是既令人兴奋又令人恐惧的事。

STaR 的特点是具备特定条件下的推理能力:先拿一个已经训练好的模型,再准备一个小型数据集(里面包含推理步骤),喂进去训练。然后让模型生成解决问题的推理过程,如果结果正确、符合答案,就判定为有效推理。接着不断微调、不断让它自我学习。最终的测试结果显示,这种方式确实能提升模型在数学运算上的表现。换句话说,在特定条件和训练方式下,确实可以让模型效仿推理过程,从而具备一定的推理能力。

这样辛苦地挖掘和塑造 AI 的推理能力,对日常使用而言有什么意义?

路透社的线人透露,OpenAI 特别希望能达成「CUA」——computer-using agent,即模型能够根据文档和其他材料提供的信息,自主采取行动。这是 OpenAI 提出的「五阶评级」中的第三阶:代行者,能够采取行动的系统。

图片来自:彭博社

现在的对话 chatbot 只是第一阶,而「Strawberry」据称已经接近第二阶。可以想见,

推理能力是第三阶段的必要前提

——只有具备了推理能力,通过各种信息推演出用户意图,才有可能丝滑地完成服务调度、采取行动。

以鸿蒙的 Harmony Intelligence 为例,这是鸿蒙首次将 AI 能力融入系统,除了提供基于生成式 AI 的图像、声音修复技术,还有惊艳的「控件 AI 化」——各种第三方应用可以调用系统空间处理请求,打破应用与应用之间的壁垒。

再比如很快也要亮相的 Apple Intelligence,也是旨在为用户创造更一体化、无缝衔接的体验。

在之前的讨论中,我们就提到 AI 不应当只作为一种服务,而是要糅合进操作系统里,共同存在。这恰恰也来自 OpenAI 联合创始人 Andrej Karpathy 的设想。这就是 AI 推理能力备受瞩目的原因之一——只要你拥有一台智能手机,就不妨畅想一种可能的未来:

AI 成为智能手机新的操作系统,而大模型就是智能操作系统的核心


相关下载