首页 > 教程攻略 > ai教程 >OpenAI路线遭质疑,Meta研究员:根本无法构建超级智能

OpenAI路线遭质疑,Meta研究员:根本无法构建超级智能

来源:互联网 时间:2026-06-24 07:15:05

超级智能——这个位于AGI之上、能力甚至可能超越人类的AI终极形态,正在成为头部科技公司暗自较劲的战场。扎克伯格不惜以年薪一亿美元挖角OpenAI等竞争对手,背后暴露的正是Meta等玩家对“超级智能”的野心。

那么,超级智能究竟要怎么搞?现有的大语言模型(LLM)研究路径走对了吗?Scaling Laws还能继续奏效吗?

早在2023年,OpenAI首席执行官Sam Altman就放话:构建AGI是个科学问题,但构建超级智能是个工程问题。这话听起来像是他们手里已经握着一张可行路线图。然而,Meta AI研究员Jack Morris对此并不买账。在他看来,Altman所说的“工程问题”,其实是指“构建大量适用于不同任务的RL环境,并训练LLM同时处理所有这些任务”。而Morris认为,这种由OpenAI等公司大力推行的路径——基于LLM的强化学习——根本就造不出超级智能。

“一个谦卑的预测是:LLM会在训练分布内的任务上越做越好。随着我们收集更多类型的任务并进行训练,会出现越来越有用的LLM,但它不会变成一个单一的超级智能模型。”Morris在一篇题为“Superintelligence, from First Principles”的博客中,探讨了构建超级智能的三种可能方式:完全由监督学习(SL)、来自人类验证者的强化学习(RL)、来自自动验证器的RL。他还特别指出,把非文本数据(图像、视频等)塞进模型并不会带来整体性能的提升,“由实际人类撰写的文本携带某种内在价值,而我们周围世界纯粹的感官输入永远无法具备这种价值。”

许多人都在讨论如何利用当前技术实现AGI或ASI。Meta最近宣布正在建立秘密的“超级智能”实验室,投入数十亿美元。OpenAI、Anthropic和Google DeepMind都以不同方式表达了构建超级智能的目标。Sam Altman特别表示,超级智能仅仅是一个工程问题:

这暗示着OpenAI的研究人员知道如何构建超级智能,只需要投入时间和精力来搭建所需系统。但在Morris看来,事情远没有那么简单——他甚至不确定这是否可能。因此,这篇文章试图从第一性原理出发,深入细节,推测是否有人真的能走通这条路。

先做一个基本假设:实现超级智能的技术基石已经确定——神经网络架构,加上反向传播算法和某种形式的机器学习方法。架构本身或许不是最关键的因素(大胆假设超级智能将采用Transformers构建,毕竟这是目前最流行的方案)。那么,剩下的两个核心问题是:用什么学习算法?用什么数据?先聊数据。

数据:必须是文本

ChatGPT之所以诞生,很大程度上得益于对互联网上庞大人类知识宝库的学习。尽管现代工程巧妙隐藏了大部分复杂性,但值得花点时间来理清本质。目前最好的系统都依赖互联网文本数据学习。截至2025年6月,Morris认为将非文本数据(图像、视频、音频、机器人超感官数据)整合进来并未带来整体性能提升——我们尚不清楚如何利用这些模态来提升智能水平。

为什么会这样?可能只是科学或工程挑战还没解决;但也可能文本本身具有特殊性。互联网上每一段文本(在LLM出现之前)都是人类思维过程的反映。人类撰写的文本经过预处理,信息含量极高。相比之下,图像只是世界未经人类干预的原始视角。很可能,人类撰写的文本携带某种内在价值,而纯粹感官输入永远无法具备这种价值。在有人证明情况相反之前,姑且认为只有文本数据才是重要的。

那么,文本数据有多少?下一个问题是数据集可能有多大。许多人讨论过“数据墙”或“token危机”——如果文本数据用完了该怎么办。这种情况似乎正在发生。大型AI实验室的工程师已经花费无数小时从网络各个角落刮取每一个有用文本片段,甚至转录数百万小时YouTube视频、购买大量新闻故事来训练。幸运的是,可能还有另一个数据源(可验证的环境),但稍后再讨论。

学习算法

上面得出一个重要原则:通向超级智能的最佳路径在文本数据中。换句话说,AGI很可能就是LLM,或根本不存在。其他有前景的领域(从视频、机器人技术中学习)似乎远未达到2030年前产生独立智能系统的水平。现在必须面对最核心的问题:超级智能的学习算法是什么?

机器学习中,从大数据集学习的基本方法有两种:监督学习(SL)——训练模型增加某些示例数据的概率;强化学习(RL)——从模型中生成数据,并因“良好”行动给予奖励。任何潜在的超级智能系统都必须通过SL或RL(或两者结合)进行训练。

图|杨立昆(Yann LeCun)曾表示他知道通向智能的秘诀。智能就像一块蛋糕,而RL只是上面的一小颗樱桃。

分别探讨这两种方案。

1. 假设1:超级智能来自SL

还记得2023年吗?那正是人们对scaling laws感到兴奋的时候;GPT-4发布后,人们担心模型继续规模化可能变得危险。

图|大约2023年,很多人担心LLM通过简单的监督学习扩展后很快会演化为超级智能。

有一段时间,人们普遍认为大量SL,尤其是“next-token prediction”,可能导致超级智能AI出现。Ilya Sutskever曾发表演讲指出,next-token prediction本质上是在学习压缩“(信息)宇宙”,因为要做好这一点需要模拟所有可能的程序。他的论点大致如下:准确的next-token prediction需要对任何人在任何情境下会写的内容进行建模;建模越准确,越接近一个人的智能;互联网包含许多人撰写的文本,因此在大型文本数据集上训练就需要准确建模许多人的智能;准确建模许多人的智能就是超级智能。

(1)“氛围”论:我们能否通过模拟人类实现超级智能?

这种逻辑存在一些缺陷。首先,我们已经创建了在next-token prediction方面远超人类水平的系统,但这些系统仍无法展现人类级别的通用智能。某种程度上,系统学会了我们要求它们学习的东西(next-token prediction),却仍无法完成我们期望的任务(如不凭空杜撰地回答问题、完美遵循指令等)。这可能仅仅是机器学习的失败——模型被训练去预测每种情况下的人类平均结果,这种学习目标鼓励模型避免给任何一种可能的结果赋予过低概率,常常导致“模式崩溃”,模型在预测平均结果方面很出色,却未能学习分布的尾部。这些问题可能在规模扩展后消失——拥有数十亿参数的模型(如Llama)会产生幻觉,但仅有10⁹个参数;当训练10¹⁹个参数的模型时会怎样?或许足以让单个LLM独立给全球80亿人类建模,并提供各自独立的数据驱动预测。

(2)Infra论:我们无法扩展模型和数据

但事实证明这已无关紧要,因为我们可能永远无法扩展到10¹⁹个参数。这个假设源于2022年左右受语言模型scaling laws巨大成功驱动的深度学习学派,认为持续扩展模型和数据规模将实现完美智能。现在是2025年。这一理论论点仍未被挑战,scaling laws也一直有效。但规模超过一定阈值后,扩展模型变得极其困难(而早在2022年,我们已经接近能有效处理的极限)。企业已远远超出单台机器的能力范围——所有最新模型都是在数百台机器组成的巨型网络上训练的。继续将模型规模扩展到万亿级参数,正引发硬件短缺和电力短缺。更大的模型将消耗如此多的电力,无法集中部署于单一地点;企业正在研究如何将模型训练分布到多个遥远的数据中心,甚至收购、修复废弃核电站来训练下一代更大规模的AI模型。我们正处于一个疯狂的时代。

除了模型规模,还可能面临数据不足。没有人知道每个模型在训练中使用了多少互联网数据,但数量相当庞大。过去几年,大型AI实验室投入巨大工程努力从互联网文本数据中榨取最后一点价值:OpenAI似乎已经转录了整个YouTube,Reddit等高质量信息网站也被反复抓取。将模型规模扩展到超过1000亿参数似乎很困难,将数据规模扩大到20T tokens以上也很困难。这些因素表明,未来三到四年内SL的规模很难再扩展10倍以上——对超级智能的探索可能不得不另寻突破口。

2. 假设2:通过结合SL与RL实现超级智能

也许你认同上述观点之一:要么在很长一段时间内都无法将预训练规模再提升几个数量级,要么即使做到了,在预测人类token方面表现出色,也无法构建比人类更聪明的系统。还有另一种方法——RL领域提供了一整套通过反馈而非仅依赖演示进行学习的方法。

为什么需要SL?RL非常难。为什么不能全程使用RL?从实际角度看,RL有许多缺点。简而言之,SL比RL稳定且高效得多。一个易于理解的原因是:RL通过让模型生成动作并评分,随机初始化的模型基本上很糟糕,所有动作都毫无用处,必须偶然做好一些事才能获得任何奖励。这就是冷启动问题,而这只是RL众多问题中的一个。基于人类数据的SL是解决冷启动问题的有效方法。

重新梳理RL范式:模型尝试各种操作,然后被告知这些操作的表现好坏。这可通过两种方式实现:要么由人类评估者告知模型表现优劣(大致是典型RLHF的工作原理),要么由自动化系统完成。

3. 假设2A:来自人类验证者的RL

在此范式下,模型获得基于人类的奖励。希望模型具备超级智能,因此希望对其生成更接近超级智能(由人类评判)的文本进行奖励。这类数据收集成本极高。典型RLHF设置中,需要训练一个奖励模型来模拟人类反馈信号。奖励模型是必要的,因为它们能提供远超实际人类反馈量的反馈。可以把奖励模型视为工程细节暂且忽略。

设想一个世界:拥有无限数量的人类来为LLM标注数据,高奖励意味着模型输出更接近超级智能。

图|“一千只猴子在一千台打字机前工作。很快,它们将写出人类历史上最伟大的小说。”——伯恩斯先生,《辛普森一家》

忽略所有程序复杂性。假设这种方法能够大规模应用(尽管目前可能无法实现,但未来或许可行)。这会有效吗?一个仅通过人类奖励信号学习的机器,能否沿着智能阶梯不断进步,最终超越人类?换个方式问:人类能否“验证”超级智能的存在,即便自己不能生成它?记住,人类从定义上来说不是超级智能。但当我们看到超级智能时,能否识别出它?能否以足够可靠的方式识别,从而为LLM提供有用梯度信号,使其收集大量反馈自我提升至超级智能?

有人会指出“生成自然会比验证更难”。你看一部好电影时就知道它好,但并不意味着你可以自己去制作。这种二分法在机器学习中经常出现:区分猫和狗的照片比生成完整的猫容易得多。如果人类能够验证超级智能,那么可能可以通过RLHF训练一个超级智能模型。以具体例子来说,让LLM撰写大量小说,根据人类对“好小说”的定义进行奖励,然后多次重复,直到得到能撰写小说的超级智能机器。这种逻辑中存在什么问题吗?

4. 假设2B:来自自动验证器的RL

最近,人们对使用类似方法训练更好的语言模型感到兴奋。当让计算机评估RL算法的阶段性性能时,可以使用模型或自动验证器。以国际象棋或编程为例——可以编写规则检查计算机是否赢得了国际象棋比赛,在将死对手时给予奖励;在编程中,运行单元测试,对编写符合规格代码的计算机给予奖励。使用验证器更加实用——将能完全去除人类的参与(尽管人类曾用于编写整个互联网)。使用验证器实现超级智能的方案大致如下:用SL在大量互联网文本上预训练一个LLM;将其接入一个能为优质LLM输出提供奖励的验证系统;运行很长时间;实现超级智能。

这个思路靠谱吗?它真的可行吗?众所周知,DeepMind的AlphaGo通过RL与SL的结合实现了围棋霸主地位(击败所有人类选手,包括训练数十年的高手)。AlphaGo的第二个版本AlphaGo Zero通过连续40天与自己对弈来学习。

图|2016年,AlphaGo以四胜一负击败当时的人类围棋冠军李世石。最初的AlphaGo通过SL训练,接下来的版本通过RL学习:自我对战数百万局。

需要注意的是,围棋具有许多现实任务不具备的重要特性——固有可验证性。可以将围棋对局输入到基于规则的计算机程序中,获得信号指示是否获胜。从长远看,可以根据某一步棋对游戏以胜利结束的概率的影响判断是否“好”。借助这种可验证性,AlphaGo实现了AI实验室长期追求的重要目标:思考时间更长时表现更佳。语言模型默认无法做到这一点。

这正是OpenAI去年秋季宣布的突破性成果。他们利用可验证奖励强化学习(RLVR)训练了o1模型,该模型与AlphaGo一样,能通过更长时间思考产生更优输出:

图|在o1博客文章中,OpenAI介绍了一系列“推理模型”,这些模型通过RLVR进行学习。

观察上方的图表(注意对数x轴!),o1的确随着思考时间增加表现更好。但标题显示这是在AIME数据集上的结果——AIME是一组极其困难、答案为整数的数学题。换言之,这不是开放式任务,而是可验证的任务,因为可以检查LLM是否生成正确答案并奖励模型。事实证明,当前LLM在预训练后能很好处理任意任务,它们可以对AIME问题做出合理猜测,而RL可以训练它们随时间做出越来越好的猜测。(最酷的部分是它们会生成越来越多的“思考token”,从而提供测试时计算图。)

5. RLVR是通向超级智能的路径?

显然,OpenAI、谷歌和其他AI实验室对这种基于LLM的RL非常兴奋,并认为可能带来超级智能。这种范式正是Altman在文章最前面模糊推文中提到的内容——超级智能的“工程问题”在于构建大量适用于不同任务的RL环境,并训练LLM同时处理所有任务。分析这种乐观设想:已知可验证任务包括编程(运行代码验证正确性)和数学(有数值解的问题)。如果收集世界上所有可验证事物,同时对它们进行训练(或分别训练然后模型合并)——这真的会产生通用超级智能吗?

这里存在几个逻辑跳跃。最重要的是,RL在可验证任务上的迁移能力是否能够有效扩展到其他领域?训练模型解决数学问题是否自然教会它如何预订机票?或者,在可验证环境中训练模型提升编程能力,是否使其成为更优秀的软件工程师?假设这种情况成立,且RL能完美迁移到各种任务上,将产生巨大影响——AI公司将展开军备竞赛,争夺最丰富、实用且工程设计精良的任务集。很可能有多家公司以这种方式推出“超级智能LLM”。但这种结果似乎不太可能。一个猜测是:如果RL确实能极好地迁移到其他领域,那我们现在应该已经知道了。谦卑的预测是:LLM将继续在训练分布内的任务上变得更好。随着收集更多类型的任务并进行训练,将产生在广泛任务上越来越有用的LLM,但它不会成为一个单一的超级智能模型。

相关下载