经典之作PPO算法：曾被NeurIPS拒了

来源：互联网时间：2026-06-22 18:18:51

真是令人意外。

PPO（Proximal Policy Optimization）

——这个后来在 RLHF 与大模型训练中被反复使用的经典算法，当年竟被 NIPS 2017 拒之门外。

这件事最近由 PPO 的作者 John Schulman 本人提起。他只用了简单一句话概括这段往事：PPO，曾经被 NIPS 2017 拒稿。

这篇最早发表于 2017 年 7 月的论文，在当时的语境下，看起来不过是一个更简单、更工程友好的策略优化算法。它的初衷，是在保留 TRPO 稳定性的同时，降低实现复杂度，让强化学习变得更好调、更实用。

但几年之后，真正把 PPO 推向更广阔舞台的，反而不是 Atari、机器人控制这些传统的强化学习任务，而是大语言模型。

从 RLHF 到今天的 RLVR，PPO 已经成为大模型后训练中绕不开的基础算法之一。用 Schulman 自己的说法，PPO 在 LLM 时代迎来了第二波热潮，其影响力的广度，甚至超出了原论文当年的预期。

这听起来不像是在抱怨当年的被拒，更像是一种事后的感慨：一项技术的真正影响力，往往以发明者最初未曾预料到的方式释放出来。

那么，PPO 当年为什么会被拒？

Schulman 事后给出的解释很坦诚：这篇论文在当时被认为创新性有限，相比已有的基线方法，提升也不够明显。

有网友评论道，这背后其实折射出学术评价与真实产业需求之间的一种错位。学术界往往更看重新颖性，以及在小规模、受控实验环境下对基线的提升。而真实世界更在意的是，一个方法能否扩展到更大规模，能否在复杂的系统中保持稳定，以及——能不能真正跑起来。

Schulman 对此显得很平和。他说，那已经是过去很久的事了，希望这些年过去，学术界已经逐渐理解并接纳了这种“简单但可规模化”的审美。

真正让他感到意外的，是 PPO 这篇论文以及其中的目标函数，竟然能持续影响这么久。一个算法改动，到底是很快被遗忘、被替代的小修小补，还是会长期留在系统里，成为难以超越的基础组件？这个问题，往往在最初很难判断。

而 PPO 的故事，恰好说明了这一点。

其实，历史上有太多这样的例子。AI 领域中，不少后来被证明影响深远的工作，都曾在最初投稿时被顶会拒之门外。

：1996 年被 NIPS 拒稿，当时的理由是被认为过于复杂、缺乏生物学合理性。但它后来成为了语音识别、机器翻译等序列建模任务的核心技术。

：曾被 ICCV 1997、CVPR 1998 拒稿，原因是工程步骤繁琐、不够“优雅”。但它后来统治了前深度学习时代的计算机视觉长达十多年。

：2012 年被 NIPS 拒稿，当时被认为像个工程 hack，理论解释也不够严谨。但它后来成为深度神经网络最重要的正则化方法之一，并最终获得了 NeurIPS 时间检验奖。

有时候，时间才是最严格，也最公平的评审。