首页 > 教程攻略 > ai资讯 >Deepseek R1是如何训练的

Deepseek R1是如何训练的

来源:互联网 时间:2026-05-27 09:53:33

最近,AI开源社区迎来了一颗重磅新星:DeepSeek-R1。这个由深度求索公司发布的最新模型,在复杂推理任务上的表现,已经达到了能与OpenAI的o1模型同台竞技的水平。其背后的秘诀,在于一套名为“组相关策略优化”(GRPO)的创新强化学习算法,以及一个精心设计的多阶段训练流程。这套方法专为提升大语言模型的推理能力而生,尤其在数学等领域,效果令人瞩目。

Deepseek R1是如何训练的

GRPO:化繁为简的强化学习新思路

GRPO的核心思路,其实是一种“减法艺术”。它取消了传统强化学习中对独立价值函数模型的依赖,从而大幅简化了训练过程。这么做的好处显而易见:既节省了宝贵的内存和计算资源,又能通过一种巧妙的“组内平均奖励”来估算性能基准,指导模型优化。

与大家熟悉的近端策略优化(PPO)不同,GRPO不再需要那个单独训练、时常不稳定的价值函数。它直接使用同一组输入下多个模型输出的平均奖励作为参照。这就好比,不再需要一个外部裁判来给每个动作单独打分,而是让模型自己在一组尝试中内部比较、自我校准。这种方法让模型在处理需要多步推理、产生多段输出的任务时,显得更加自然和高效。

从实验到突破:DeepSeek R1的锻造之路

DeepSeek团队是如何将这一理论付诸实践的呢?他们的旅程始于DeepSeek-V3模型。团队首先尝试应用GRPO,让模型对无监督的推理文本进行补全,并引入了一套基于规则的奖励机制,重点考察格式、数学和编程能力。

具体来说,奖励主要看两点:一是答案是否正确(比如数学题结果对不对,LeetCode问题能否解决),二是思考过程是否清晰、格式是否规范。这种“结果”与“过程”并重的评判标准,迫使模型不仅要找到答案,还要学会条理分明地展示其思维链条。

效果是立竿见影的。在AIME 2024这样的高难度数学竞赛测试集上,模型的Pass@1得分从最初的15.6%一路飙升至71.0%,这个成绩已经非常接近OpenAI的o1-0912模型。更有趣的是,随着问题复杂度增加、需要生成的思考token变多,模型似乎“自然而然”地学会了进行更长时间、更深层次的思考。

当然,进步并非一蹴而就。早期的模型输出曾面临可读性差、语言混杂的问题,但通过后续多阶段的精细打磨,这些问题被逐一攻克。

四阶段训练:构建稳定而强大的推理引擎

为了确保最终模型的稳健与出色,DeepSeek R1的训练经历了四个环环相扣的关键阶段:

第一阶段:监督微调(SFT)打基础。

为了避免强化学习初期常见的冷启动不稳定问题,团队首先使用了大量包含链式思维(CoT)的数据集对模型进行微调。这为后续的强化学习提供了一个高质量的起点。

第二阶段:GRPO聚焦推理。

在代码和数学等核心推理任务上应用GRPO。此时,团队特别加入了“语言一致性”奖励,确保模型在深入思考的同时,输出风格保持统一、连贯,解决了早期语言混杂的毛病。

第三阶段:拒绝采样(RS)扩展能力。

通过拒绝采样技术生成了大规模的合成数据。这一阶段的重点,是提升模型在写作、角色扮演等通用任务上的表现,拓宽其能力边界。

第四阶段:GRPO综合优化。

再次应用GRPO,但这次结合了更综合的规则奖励与结果奖励模型。目标是最终打磨模型的有用性和无害性,使其成为一个既强大又可靠的助手。

令人意外的发现与选择

在整个开发过程中,DeepSeek团队做出了一些不同于主流路线的选择,也收获了一些反直觉的洞察。例如,他们并没有采用蒙特卡洛树搜索(MCTS)或复杂的过程奖励模型(PRM)。

一个关键的发现是:在应用GRPO之前进行充分的监督微调,能让整个训练过程更快、更稳定。此外,团队验证了,基于准确性和格式的、清晰明确的规则奖励,其效果往往比训练一个庞大而复杂的奖励模型更加直接有效。这提醒我们,有时候,优雅简单的解决方案,反而能直击要害。

通过这一系列创新且严谨的训练步骤,DeepSeek R1最终得以诞生。它不仅在大规模推理基准测试中证明了实力,更在各种实际任务中展现出优异的实用性和输出一致性,为开源大模型在复杂推理领域树立了新的标杆。

相关下载