Deepseek R1是如何训练的
最近,AI开源社区迎来了一颗重磅新星:DeepSeek-R1。这个由深度求索公司发布的最新模型,在复杂推理任务上的表现,已经达到了能与OpenAI的o1模型同台竞技的水平。其背后的秘诀,在于一套名为“组相关策略优化”(GRPO)的创新强化学习算法,以及一个精心设计的多阶段训练流程。这套方法专为提升大语言模型的推理能力而生,尤其在数学等领域,效果令人瞩目。

GRPO:化繁为简的强化学习新思路
GRPO的核心思路,其实是一种“减法艺术”。它取消了传统强化学习中对独立价值函数模型的依赖,从而大幅简化了训练过程。这么做的好处显而易见:既节省了宝贵的内存和计算资源,又能通过一种巧妙的“组内平均奖励”来估算性能基准,指导模型优化。
与大家熟悉的近端策略优化(PPO)不同,GRPO不再需要那个单独训练、时常不稳定的价值函数。它直接使用同一组输入下多个模型输出的平均奖励作为参照。这就好比,不再需要一个外部裁判来给每个动作单独打分,而是让模型自己在一组尝试中内部比较、自我校准。这种方法让模型在处理需要多步推理、产生多段输出的任务时,显得更加自然和高效。
从实验到突破:DeepSeek R1的锻造之路
DeepSeek团队是如何将这一理论付诸实践的呢?他们的旅程始于DeepSeek-V3模型。团队首先尝试应用GRPO,让模型对无监督的推理文本进行补全,并引入了一套基于规则的奖励机制,重点考察格式、数学和编程能力。
具体来说,奖励主要看两点:一是答案是否正确(比如数学题结果对不对,LeetCode问题能否解决),二是思考过程是否清晰、格式是否规范。这种“结果”与“过程”并重的评判标准,迫使模型不仅要找到答案,还要学会条理分明地展示其思维链条。
效果是立竿见影的。在AIME 2024这样的高难度数学竞赛测试集上,模型的Pass@1得分从最初的15.6%一路飙升至71.0%,这个成绩已经非常接近OpenAI的o1-0912模型。更有趣的是,随着问题复杂度增加、需要生成的思考token变多,模型似乎“自然而然”地学会了进行更长时间、更深层次的思考。
当然,进步并非一蹴而就。早期的模型输出曾面临可读性差、语言混杂的问题,但通过后续多阶段的精细打磨,这些问题被逐一攻克。
四阶段训练:构建稳定而强大的推理引擎
为了确保最终模型的稳健与出色,DeepSeek R1的训练经历了四个环环相扣的关键阶段:
第一阶段:监督微调(SFT)打基础。
第二阶段:GRPO聚焦推理。
第三阶段:拒绝采样(RS)扩展能力。
第四阶段:GRPO综合优化。
令人意外的发现与选择
在整个开发过程中,DeepSeek团队做出了一些不同于主流路线的选择,也收获了一些反直觉的洞察。例如,他们并没有采用蒙特卡洛树搜索(MCTS)或复杂的过程奖励模型(PRM)。
一个关键的发现是:在应用GRPO之前进行充分的监督微调,能让整个训练过程更快、更稳定。此外,团队验证了,基于准确性和格式的、清晰明确的规则奖励,其效果往往比训练一个庞大而复杂的奖励模型更加直接有效。这提醒我们,有时候,优雅简单的解决方案,反而能直击要害。
通过这一系列创新且严谨的训练步骤,DeepSeek R1最终得以诞生。它不仅在大规模推理基准测试中证明了实力,更在各种实际任务中展现出优异的实用性和输出一致性,为开源大模型在复杂推理领域树立了新的标杆。