AGI倒计时，OpenAI首席研究官重磅表态：留给人类的窗口“很小”

来源：互联网时间：2026-07-01 16:03:30

通用人工智能（AGI），真的要来了。

OpenAI首席研究官Mark Chen有个观点：在某种意义上就像希望你能感觉到，AGI（通用人工智能）正在逼近……模型自主提出创新、甚至进行自我维持研究的世界，已经不是遥远的事。

这不仅仅是效率的提升——「进化」本身也被外包给了硅基生命。当他在镜头前熟练地切蘑菇和洋葱时，谈论的其实是一碗汤，以及一个更深远的问题：如果AI能做到自我研究，人类最后一块阵地还稳吗？AGI到来前夜，人们究竟该扮演什么角色？

每个领域都在经历自己的「神之一手」

要理解这句话的分量，得先回到Mark入行的起点。

2016年，AlphaGo与李世石的对弈，第二局里那手「第37手」，落子的瞬间，所有人类棋手都看不懂。

后来才发现，那是机器走出的一手人类根本想不到的棋。正是那一刻点燃了无数人，把Mark Chen也拽进了这个领域。

如今呢？他提到一个更疯狂的事实：现在几乎每个领域，都能看到这种「神之一手」——数学里有，计算机科学里有，编程里也有。

他描述了一个微妙的时间节点：很多人是在今年年初「一觉醒来」，突然意识到，AI agent在自身所在的领域，真的能干活了。不是玩具，不是demo，而是能替你完成有意义的、长周期的真实工作（long-horizon work）。

这意味着「模型自己做研究」这件事，已经从科幻片的剧本里，搬到了实验台的日程上。顺着这条线往前看，终点站着的，就是那个会自己搞研究的模型。

Scaling不止，预训练未死

这种乐观到底靠什么撑着呢？靠一个信念：Scaling曲线还没到头。

这两年，「预训练已死」「语言模型到不了AGI」的论调隔三差五就冒出来。Mark Chen对此相当激烈地反对，直接点破了一个套路——「预训练已死」听着新鲜，其实就是个被反复重播的老剧本。每年都有人指着某个瓶颈说「到顶了，过不去了」，结果OpenAI总能掏出一个新工程技巧或研究上的新见解，又把那堵墙凿穿。

他坚信，「我们正处在指数曲线上。它已经撑过了将近10个数量级，没有任何理由它不会继续撑下去。」

最有说服力的证据，是OpenAI自己亲手赌赢的一次——推理（reasoning）。o1刚立项时，连公司内部都有人不信。当时「预训练+后训练」的范式太能打了，有人觉得机器转得好好的，何必再去折腾别的？是Jakub Pachocki、Ilya Sutskever等几位有信念、有判断力的人硬推，才把它变成了全公司的根本性赌注。

一年后o1问世，推理范式引爆行业。曲线没到头，加上最大的突破往往来自一开始没人信的赌注——这两条加在一起，就是Mark Chen敢说「模型自我维持研究不远了」的底气。

当模型开始在长达数周甚至数月的任务上思考时，它所产生的创新，可能已经超出人类专家的认知盲区。这正是「自我维持科研」的基石：如果能推导出人类没见过的数学公式，当然也能写出比人类更优的算法架构。

Vibe Researcher：当执行力变得廉价

我们已经有vibe coder了——动动嘴，让AI写代码。

现在，研究也在朝这个方向滑行。访谈中一个极具争议的概念被反复提及：

Vibe Researcher（氛围研究员）

。这是略带自嘲但深思熟虑的职业预测。

Mark认为，未来的顶级研究员不再是那个写下每一行PyTorch代码的人，而是那个「拿捏感觉」的人——负责出主意，剩下的实现、执行、调度，模型自己搞定。

无论OpenAI还是其他实验室，大量工作正在变成以「编排」（orchestration）为主。人负责出主意，模型负责把活全干完。OpenAI的三年路线图上，终点写得明明白白：让模型做

端到端（end-to-end）的研究

，从出主意到出成果，全程自己来。

但这条路上，全是还没填平的坑

随着AI能自主执行和编排任务，人类的工作被压缩到两端：1、提出真正的问题；2、判断AI给出的答案是否有「灵魂」。这就是所谓的「品味」（Taste）。因为机器没有「生活」，所以没有「常识」，也就无从产生「品味」。

冷静下来想，Mark Chen比谁都清楚，这条路远没有铺平。

第一个坑：评测，崩了。

他用了内部词叫「Benchmaxxing」（刷榜）——找一堆和测试集长得几乎一模一样的题往死里训，分数好看但泛化能力半点没涨。更糟的是，公认的金标准benchmark数量太少。「我们真的处在一场评测危机里。」SAT那种经典测试，对今天的模型全都饱和了。甚至一个评测一旦公开，就像一张印出来就立刻作废的考卷。