首页 > 教程攻略 > ai资讯 >Deepseek R1是如何训练的

Deepseek R1是如何训练的

来源：互联网时间：2026-05-27 09:53:33

最近，AI开源社区迎来了一颗重磅新星：DeepSeek-R1。这个由深度求索公司发布的最新模型，在复杂推理任务上的表现，已经达到了能与OpenAI的o1模型同台竞技的水平。其背后的秘诀，在于一套名为“组相关策略优化”（GRPO）的创新强化学习算法，以及一个精心设计的多阶段训练流程。这套方法专为提升大语言模型的推理能力而生，尤其在数学等领域，效果令人瞩目。

Deepseek R1是如何训练的

GRPO：化繁为简的强化学习新思路

GRPO的核心思路，其实是一种“减法艺术”。它取消了传统强化学习中对独立价值函数模型的依赖，从而大幅简化了训练过程。这么做的好处显而易见：既节省了宝贵的内存和计算资源，又能通过一种巧妙的“组内平均奖励”来估算性能基准，指导模型优化。

与大家熟悉的近端策略优化（PPO）不同，GRPO不再需要那个单独训练、时常不稳定的价值函数。它直接使用同一组输入下多个模型输出的平均奖励作为参照。这就好比，不再需要一个外部裁判来给每个动作单独打分，而是让模型自己在一组尝试中内部比较、自我校准。这种方法让模型在处理需要多步推理、产生多段输出的任务时，显得更加自然和高效。

从实验到突破：DeepSeek R1的锻造之路

DeepSeek团队是如何将这一理论付诸实践的呢？他们的旅程始于DeepSeek-V3模型。团队首先尝试应用GRPO，让模型对无监督的推理文本进行补全，并引入了一套基于规则的奖励机制，重点考察格式、数学和编程能力。

具体来说，奖励主要看两点：一是答案是否正确（比如数学题结果对不对，LeetCode问题能否解决），二是思考过程是否清晰、格式是否规范。这种“结果”与“过程”并重的评判标准，迫使模型不仅要找到答案，还要学会条理分明地展示其思维链条。

效果是立竿见影的。在AIME 2024这样的高难度数学竞赛测试集上，模型的Pass@1得分从最初的15.6%一路飙升至71.0%，这个成绩已经非常接近OpenAI的o1-0912模型。更有趣的是，随着问题复杂度增加、需要生成的思考token变多，模型似乎“自然而然”地学会了进行更长时间、更深层次的思考。

当然，进步并非一蹴而就。早期的模型输出曾面临可读性差、语言混杂的问题，但通过后续多阶段的精细打磨，这些问题被逐一攻克。

四阶段训练：构建稳定而强大的推理引擎

为了确保最终模型的稳健与出色，DeepSeek R1的训练经历了四个环环相扣的关键阶段：

第一阶段：监督微调（SFT）打基础。

为了避免强化学习初期常见的冷启动不稳定问题，团队首先使用了大量包含链式思维（CoT）的数据集对模型进行微调。这为后续的强化学习提供了一个高质量的起点。

第二阶段：GRPO聚焦推理。

在代码和数学等核心推理任务上应用GRPO。此时，团队特别加入了“语言一致性”奖励，确保模型在深入思考的同时，输出风格保持统一、连贯，解决了早期语言混杂的毛病。

第三阶段：拒绝采样（RS）扩展能力。

通过拒绝采样技术生成了大规模的合成数据。这一阶段的重点，是提升模型在写作、角色扮演等通用任务上的表现，拓宽其能力边界。

第四阶段：GRPO综合优化。

再次应用GRPO，但这次结合了更综合的规则奖励与结果奖励模型。目标是最终打磨模型的有用性和无害性，使其成为一个既强大又可靠的助手。

令人意外的发现与选择

在整个开发过程中，DeepSeek团队做出了一些不同于主流路线的选择，也收获了一些反直觉的洞察。例如，他们并没有采用蒙特卡洛树搜索（MCTS）或复杂的过程奖励模型（PRM）。

一个关键的发现是：在应用GRPO之前进行充分的监督微调，能让整个训练过程更快、更稳定。此外，团队验证了，基于准确性和格式的、清晰明确的规则奖励，其效果往往比训练一个庞大而复杂的奖励模型更加直接有效。这提醒我们，有时候，优雅简单的解决方案，反而能直击要害。

通过这一系列创新且严谨的训练步骤，DeepSeek R1最终得以诞生。它不仅在大规模推理基准测试中证明了实力，更在各种实际任务中展现出优异的实用性和输出一致性，为开源大模型在复杂推理领域树立了新的标杆。

Deepseek R1是如何训练的

GRPO：化繁为简的强化学习新思路

从实验到突破：DeepSeek R1的锻造之路

四阶段训练：构建稳定而强大的推理引擎

第一阶段：监督微调（SFT）打基础。

第二阶段：GRPO聚焦推理。

第三阶段：拒绝采样（RS）扩展能力。

第四阶段：GRPO综合优化。

令人意外的发现与选择

相关阅读

相关下载