首页 > 教程攻略 > ai资讯 >Dwarkesh Patel：下一代AI，可能是干活干出来的

Dwarkesh Patel：下一代AI，可能是干活干出来的

来源：互联网时间：2026-06-29 14:06:29

硅谷知名科技播客主持人 Dwarkesh Patel 最近在圈内抛出一个关键问题：

AI 的下一代训练范式，到底会往哪个方向走？

先说说背景。Dwarkesh Patel 虽然是 25 岁的年轻人，但他的播客 Dwarkesh Podcast 已经成了 AI 从业者的重要信息源。他采访过的嘉宾包括 Ilya Sutskever、Andrej Karpathy、Dario Amodei、Demis Hassabis、Mark Zuckerberg 等一线人物，TIME 在 2024 年甚至把他列入了 TIME100 AI 榜单。可以说，他的观察基本代表了前沿 AI 实验室正在思考的方向。

在最新一期节目里，他把当前主流 AI 实验室押注的路线概括为一个关键词：

RLVR

，也就是 Reinforcement Learning with Verifiable Rewards，可验证奖励强化学习。简而言之，就是让模型在大量能自动判断对错的任务中反复试错，训练出规划、纠错、迭代和长线执行能力。今天代码、数学等领域能快速突破，很大程度上就是拜这套思路所赐。

不过，Dwarkesh 真正想追问的是：

如果下一代 AI 只靠这种“可验证任务训练”，真的够用吗？

他的判断是：很可能不够。原因在于，一个任务光“可验证”还不够，它还必须“可刷”。这里的关键概念是

grindability，可磨性

——放到 AI 训练语境中，就是“可反复刷题性”或“可大规模 rollout 的能力”。

代码任务就是典型的“可刷”任务。你准备一个软件仓库、一个待修复的 bug、一个测试用例，然后可以把同一个环境复制出几千份，让几千个 agent 同时尝试。谁通过了测试，谁就得分。这个过程完全并行、可复现、可重置，简直是为 RLVR 量身定制。数学题也是同理，答案对错可验证，训练环境也容易复制。

但 Dwarkesh 抛出一个很有意思的观察：为什么 AI 在“使用电脑”这件事上，进展反而比代码和数学慢？表面上看，电脑使用也是可验证的——东西下没下单成功、活动场地有没有订好、税表有没有提交，这些结果都能判断。然而，问题在于它很难被大规模复制和回放。你不能让一千个 agent 同时跑到 Amazon 上去反复跑同一个结账流程，因为真实网站会识别 bot、封禁账户、改变状态。当然，你可以克隆 Slack、Gmail、Amazon 这类应用来做模拟器，但在这个阶段，那仍然是一个高成本、低扩展性的工程。

换句话说，

AI 在某个领域进步快，并不只是因为答案可验证，而是因为那个领域能被包装成可复制、可回放、可并行试错的训练环境

。这也解释了为什么代码、数学、游戏类任务成了 RLVR 的天然温床，而很多真实世界的任务却很难直接套进这套训练范式里。

接着，他把问题推向更复杂的现实世界。如果我们想训练一个 AI 从零开始创业，怎么办？想训练它赢一场官司，怎么办？想训练它在市场中稳定赚钱，或帮助一个候选人赢得选举，怎么办？这些任务当然也有结果，公司有没有做起来、官司有没有赢、交易有没有盈利、选举有没有胜出，最终都能判断。但它们的问题在于：反馈太慢，变量太多，世界不可重置，也没法在数据中心里复制一千遍。一次创业可能持续数年，一次竞选依赖具体地区、候选人、选民情绪、媒体环境和偶然事件，一次法律案件也不可能从同一起点复制成一千个平行宇宙，让不同 agent 分别试错。这类环境在强化学习里接近于 reset-free、non-stationary environment——不能随便重置，而且环境本身还在不断变化。

所以 Dwarkesh 提出了一个很尖锐的问题：

RLVR 在可验证、可刷的环境里训练出来的 agent，真的能泛化到这些真实世界任务吗？

这不是一个靠口号就能回答的问题，而是需要实证检验的。乐观派会说，只要 RLVR 环境够多、够复杂，模型最终会学到通用的 agent 能力——它在代码、数学、网页、工具使用中练出来的规划和试错能力，最终会迁移到创业、组织管理、法律、科研等领域。但 Dwarkesh 对此保持怀疑，因为真实世界中最有价值的知识，往往不是以清晰、可验证、可重复的方式出现的。它们可能来自一次含混的客户反馈、一次失败的会议、一个组织内部的隐性流程、一种只有在真实任务中才会暴露的失败模式。模型要学会这些东西，不能只靠“刷题”，还必须具备真正的样本效率。

这就把讨论带到了全文最关键的节点：

learning back to the weights

，把学习重新写回权重。

今天的大模型已经非常擅长 in-context learning，可以在一个长上下文里读很多资料、理解项目背景、临时适应一个用户或组织的需求。但问题在于，这种学习大多停留在上下文窗口里，会话结束后，模型并不一定真正“长记性”。Dwarkesh 认为，这是一种巨大的浪费。因为模型真正有价值的训练信号，恰恰是在部署之后才出现的。它被真实用户使用，进入真实组织，参与真实任务，暴露真实错误——能看到公司内部怎么运转、人们实际拿它做什么、哪些地方经常失败、哪些建议在现实中根本行不通。但如果这些经验无法沉淀回模型权重，那就只是一次会话里的短暂适应，而不是能力的长期增长。

他用人类学习做了一个类比：人并不是靠把每天发生的所有事情都逐字背下来而变强的。一个员工工作半年后变得有用，不是因为他记得每封邮件、每句会议记录，而是因为他把这些经历压缩成了判断力、直觉、流程理解和问题模式。模型也应该如此。真正的 continual learning，不是无限扩大 KV cache，也不是把所有历史记录塞进上下文，而是从真实经验中提炼少量真正有用的知识，再把它们压缩进权重。

这正是 Dwarkesh 认为下一代训练范式必须解决的核心问题。

那么，具体怎么做？他提到了一个正在被讨论的方向：

on-policy self-distillation，简称 OPSD

。可以粗略理解为：让一个已经在长会话中积累了大量经验的模型，充当“老员工”或 teacher；然后训练基础模型，让它在没有这些完整上下文的情况下，也能做出类似 teacher 的判断。也就是说，把模型在一次真实任务中通过上下文学到的东西，再蒸馏回模型自身的权重。这和普通 SFT 不一样——最朴素的 SFT 可能只是让模型去预测会话里出现过的 token，相当于让它复述整个工作日志，但这不是有效学习。真正重要的不是记住全部细节，而是提炼出那些能帮助模型下次做得更好的关键洞见。OPSD 的优势在于，它不一定需要一个外部可验证奖励，只要模型能在上下文里学到有用东西，就可以把“学过之后的模型”当作 teacher，让基础模型向它靠近。同时，相比普通 RL 只有最终 reward，OPSD 可以提供更密集的监督信号——在 token 层面比较 teacher 和 student 的概率分布差异，从而把一次真实任务中的稀缺经验压缩成更小、更精准的权重更新。

除了 OPSD，Dwarkesh 还提出了另一个方向：

dreaming

。这里的 dreaming 是指 AI 根据真实世界观察，自己构造一个模拟环境，然后在里面反复练习、尝试策略、强化有效行为。这听起来很像强化学习传统里的 model-based RL，也很像 Sutton 一直强调的 agent 通过环境互动积累经验。不同的是，Dwarkesh 把它放进了大模型和真实部署的语境中。比如，一个 AI 在真实公司里观察到某个业务流程后，不光是写一份总结，而是花费大量计算，构造出这个流程的“游戏版模拟环境”。然后它在里面测试不同沟通策略、执行路径和项目推进方式，看看什么更可能成功。最后，再把这些模拟练习中得到的经验压缩回模型。

如果这种路线成立，它可能会成为新的 scaling axis。过去 AI 的扩展主要来自三条轴：pretraining、RL 和 inference-time compute。Dwarkesh 设想，未来可能还会多出第四条轴：test-time training，或者说 dreaming。模型不只是推理，而是在推理和任务执行过程中，为特定用户、特定组织、特定项目构造模拟环境，并在其中训练自己。这也是为什么评论区有人提到 Da vid Silver 和 Richard Sutton 的《Welcome to the Era of Experience》，那篇文章同样强调，AI 不能永远依赖人类数据，下一阶段的关键将是智能体从自身与环境互动中获得经验。

Dwarkesh 则把这个宏观判断具体化到了今天的大模型训练问题上。在他看来，RLVR 是一个重要的过渡阶段——它让模型在可验证任务里练出 agent 能力；但要进入更复杂的现实世界，模型必须学会从真实部署中持续学习，并把经验写回权重。在 Dwarkesh 设想的 2027 或 2028 年，训练流程可能会变成这样：首先，RLVR 训练出一个基本 competent 的 agent——这个 agent 被扔到一个陌生问题里，至少能搞清楚情况、尝试不同策略、遇到障碍后继续迭代；然后，这个 agent 被部署到真实世界中，开始做真实工作——它可能和用户一起连续工作一周，参与一个不在原始训练分布里的项目；一周结束后，用户给它一个 thumbs up 或 thumbs down，甚至写一段工作评价。如果结果是正向的，模型就会把这次任务中学到的东西蒸馏回基础模型，这个过程可能用 OPSD，可能用 dreaming，也可能用某种现在还没有出现的新技术。

一旦这条路径跑通，AI 的能力边界就不再被最初那些“可验证任务”限制住。它可以先通过 RLVR 学会代码、数学、网页任务、工具调用；再通过真实部署学习组织管理、业务流程、复杂协作；然后从这些经验出发，继续扩展到相邻领域。这也意味着，AI 进步的主要来源可能会发生变化。过去，一个模型发布前训练好了，用户只是使用它。下一代模型可能是：发布前先训练出基础 agent，发布后通过海量真实任务继续学习。每一次与用户交互，每一次真实项目执行，每一次失败和修正，都可能成为下一轮能力提升的材料。

所以，Dwarkesh 所谓的“下一代训练范式”，不是简单地说模型要更大、数据要更多、RL 要更强。它真正指向的是：

AI 从发布前训练，走向发布后学习；从人类数据，走向环境经验；从上下文里的临时适应，走向权重里的长期能力

。未来最重要的 AI 训练数据，可能不再只是互联网上已有的文本，也不只是实验室里构造好的可验证任务，而是 AI 在真实世界里完成真实任务时，自己积累出来的经验。