DeepSeek-R1 的强化学习路线：从 R1-Zero 到可评审的大模型推理

DeepSeek-R1 的核心价值不只是“模型会做难题”，而是展示了一条训练推理模型的路线：不把人类写好的推理过程当作唯一标准，而是让大语言模型在可验证任务里通过强化学习不断试错，逐渐形成自己的解题策略。

这条路线背后的关键问题是：如果模型总是模仿人类给出的思维链，它学到的可能只是人类已经写出来的推理模式；如果奖励信号只关心最终答案是否正确，模型就有机会探索更多解法，包括人类不一定会提前设计出来的中间步骤。

DeepSeek-R1 的训练过程可以拆成三件事：

用强化学习（RL，Reinforcement Learning）直接训练基础模型，让模型在数学、编程等可验证任务上通过奖励信号提升推理能力。
用 GRPO（Group Relative Policy Optimization，群体相对策略优化）降低强化学习训练成本，让一组回答之间相互比较，而不是额外训练一个价值模型。
用多阶段训练修复 R1-Zero 的可读性、语言混用和通用能力问题，最终得到更接近实际使用需求的 DeepSeek-R1。

为什么大模型推理不能只靠人工思维链

大语言模型（LLM，Large Language Model）在复杂推理任务上的一个常见做法，是让模型输出思维链（CoT，Chain-of-Thought）。思维链的直观含义是：不要只给答案，而是把中间推导步骤写出来。

例如一道数学题，如果模型直接输出 42，我们很难判断它是算出来的，还是碰巧猜中；如果模型写出分解、计算、验证过程，就更容易发现错误，也更容易让模型在中间步骤上受益。

但思维链训练有一个问题：高质量推理过程通常需要人工标注或由更强模型生成，再经过筛选。这会带来几个限制。

方法	学习信号来自哪里	优点	局限
基于提示的方法	人在提示词里告诉模型“逐步思考”	成本低，不一定重新训练模型	能力受模型已有知识和提示质量影响
监督微调（SFT，Supervised Fine-Tuning）	人工或模型生成的标准答案与推理过程	输出格式稳定，容易控制风格	依赖标注数据，可能让模型只模仿已有推理路径
强化学习	根据答案正确性给奖励或惩罚	模型可以通过试错探索策略	奖励设计、训练稳定性和可读性都更难处理

DeepSeek-R1 最值得关注的地方，是它证明了一个基础模型可以在没有人工推理过程标注的情况下，仅靠可验证任务上的奖励信号，发展出复杂推理行为。这里的“可验证”很重要：数学题可以检查最终答案，代码题可以跑测试用例，选择题可以比对标准选项。只要答案能被自动评分，强化学习就有了明确反馈。

强化学习如何训练推理能力

强化学习训练推理模型时，可以把模型看成一个玩家，把每道题看成一个关卡。模型生成回答，相当于采取一连串动作；评分器检查答案是否正确，相当于给分。正确答案得到更高奖励，错误答案得到更低奖励，模型参数再根据奖励更新。

这个过程不是告诉模型“每一步应该怎么想”，而是告诉模型“这个结果好不好”。如果某些中间推理习惯经常通向正确答案，例如自我检查、重新计算、尝试替代解法，模型就会逐渐增加这些行为出现的概率。

强化学习框架可以抽象成下面的循环：

flowchart LR
    A[题目 / Prompt] --> B[大语言模型生成回答]
    B --> C[自动评分器]
    C --> D{奖励信号}
    D -->|高奖励| E[增强类似回答的概率]
    D -->|低奖励| F[降低类似回答的概率]
    E --> G[更新模型参数]
    F --> G
    G --> B

DeepSeek-R1 的强化学习框架中，评分器主要依赖规则化反馈。数学题可以匹配最终答案，编程题可以运行测试，部分任务可以检查格式是否符合要求。这样做的好处是奖励不需要再训练一个复杂的神经网络模型，反馈来源更直接。

DeepSeek-R1 的 RL 框架如下图所示：

这套框架的关键结构是“生成—评分—更新”。模型对同一个问题生成回答，奖励模块根据答案正确性和格式要求打分，训练算法再根据奖励调整策略。久而久之，模型会倾向于输出更容易拿高分的推理过程，而不是只学习某个固定模板。

GRPO：用“组内比较”替代单独的价值模型

很多大模型强化学习方法会使用 PPO（Proximal Policy Optimization，近端策略优化）。PPO 通常需要一个价值模型来估计某个回答未来能带来多少奖励，这个价值模型本身也要训练，成本不低。

DeepSeek-R1 使用的 GRPO 思路更直接：对同一个问题一次采样多个回答，把这些回答组成一个组，然后比较它们在组内的相对表现。得分高于组平均水平的回答被强化，得分低于组平均水平的回答被抑制。

简化后的过程如下：

for prompt in prompts:
    answers = policy.sample(prompt, n=group_size)

    rewards = []
    for answer in answers:
        reward = rule_based_score(prompt, answer)
        rewards.append(reward)

    mean_reward = mean(rewards)
    std_reward = std(rewards)

    advantages = []
    for reward in rewards:
        advantage = (reward - mean_reward) / (std_reward + 1e-8)
        advantages.append(advantage)

    policy.update(prompt, answers, advantages)

GRPO 的核心不是“这个回答绝对有多好”，而是“这个回答比同组其他回答好多少”。如果同一个题目生成了 8 个答案，其中 2 个答案正确、推理完整，另外 6 个答案错误或格式混乱，那么正确答案就会在组内获得更高相对优势。

可以把它理解成下面的结构：

flowchart TB
    A[同一道题] --> B1[回答 1]
    A --> B2[回答 2]
    A --> B3[回答 3]
    A --> B4[回答 4]

    B1 --> C[规则评分]
    B2 --> C
    B3 --> C
    B4 --> C

    C --> D[计算组内平均分和标准差]
    D --> E[得到每个回答的相对优势]
    E --> F[更新策略模型]

这种方法有两个直接好处：

设计	作用
组内相对奖励	不需要为每个回答估计复杂的长期价值，只比较同题回答的好坏
不单独训练价值模型	减少训练资源和工程复杂度
保留策略约束	避免模型为了奖励过度偏离原有语言能力

不过，GRPO 也依赖奖励信号的质量。如果评分器只奖励最终答案，而完全不约束语言和格式，模型可能会出现可读性差、夹杂多种语言、输出冗长等问题。R1-Zero 的局限正好说明了这一点。

R1-Zero：纯强化学习能激发推理，但不等于直接可用

DeepSeek-R1-Zero 是一个重要实验：它从 DeepSeek-V3 Base 出发，不依赖人工标注的推理过程，直接通过强化学习训练推理能力。

训练后，R1-Zero 自然出现了不少高级推理行为：

自我反思：发现前一步可能有问题后重新检查。
验证答案：在给出最终答案前反复核对。
探索替代方案：一种解法不稳定时尝试另一种路径。
更长的推理轨迹：复杂题目上愿意展开更多中间步骤。

这说明模型不是只能被动模仿人类提供的推理样本。只要任务有明确奖励，模型可以通过试错形成有用的推理习惯。

但 R1-Zero 也暴露了纯强化学习的副作用。它的回答可能难读，可能混用语言，也可能过度关注数学和代码这类可评分任务，对写作、开放域问答、通用对话等任务不够稳定。

所以，R1-Zero 更像是一个科学验证：纯 RL 可以激发推理能力。要得到真正可用的通用推理模型，还需要后续训练阶段把能力“整理”成稳定、可读、符合人类使用习惯的形式。

从 R1-Zero 到 DeepSeek-R1：多阶段训练补齐可用性

DeepSeek-R1 并不是只靠一轮强化学习训练出来的。完整路线包含拒绝采样、强化学习、监督微调等多个阶段，每个阶段解决一个具体问题。

DeepSeek-R1 的多阶段训练 pipeline 如下图所示：

这条 pipeline 可以理解为：先证明推理能力可以通过 RL 涌现，再通过数据筛选、监督微调和进一步强化学习，把推理能力、通用语言能力和偏好对齐合在一起。

几个阶段的作用可以整理成表格：

阶段	主要目标	解决的问题
DeepSeek-R1-Zero	用纯 RL 激发推理能力	验证模型是否能通过试错学会推理策略
DeepSeek-R1 Dev1	改善指令遵循与输出可读性	缓解 R1-Zero 的格式混乱、语言混用问题
DeepSeek-R1 Dev2	强化代码、数学和 STEM 推理	提升高难任务上的稳定性
DeepSeek-R1 Dev3	加入非推理语料和代码工程数据	补齐写作、问答、通用生成和工程能力
DeepSeek-R1	综合推理能力与人类偏好	在强推理能力之外，提升可用性和安全边界

这里需要区分两个概念：

R1-Zero 的意义在于证明纯强化学习能够让推理能力出现。
R1 的意义在于把这种能力变成更适合真实使用的模型行为。

也就是说，纯 RL 是能力发现机制，多阶段训练是工程化落地机制。

为什么数学和代码适合训练推理模型

强化学习最怕奖励信号不可靠。开放式写作任务很难自动判断好坏，因为“好文章”“好回答”往往带有主观标准；数学和代码则不同，它们天然更容易评分。

任务类型	是否容易自动评分	适合 RL 的原因
数学题	高	最终答案可比对，过程可通过格式约束辅助检查
编程题	高	可以编译、运行单元测试或隐藏测试
选择题	高	选项可直接匹配
开放域写作	低	好坏标准复杂，容易依赖偏好模型
长篇对话	中低	需要同时考虑事实性、帮助性、安全性和上下文一致性

这也是 DeepSeek-R1 路线的重要前提：先在可验证任务里训练推理能力，再把这些能力迁移到更广泛的任务中。数学和代码不是全部应用场景，但它们提供了一个高质量训练场。

评测结果说明了什么

DeepSeek-R1 在多个主流 benchmark 上进行了评估，包括 MMLU（Massive Multitask Language Understanding，大规模多任务语言理解）、MMLU-Pro、C-Eval（中文综合评测）、GPQA Diamond（研究生级高难问答子集）、SimpleQA、SWE-bench Verified（软件工程任务评测集的人工验证子集）、LiveCodeBench 和 AIME（American Invitational Mathematics Examination，美国数学邀请赛）2024 等。

评测覆盖通用知识、中文能力、研究生级科学问题、软件工程、在线编程和数学竞赛等不同维度，不是只看单一榜单。

DeepSeek-R1 各训练阶段的评测结果如下：

从阶段性结果可以看到，多阶段训练并不是单纯堆数据，而是在不同能力之间做平衡：早期阶段突出推理能力，后续阶段逐渐改善通用语言生成、指令遵循和更复杂场景下的表现。最终模型在多数 benchmark 上取得更强结果，支持了“RL 激发推理能力 + 多阶段补齐可用性”这一路线。

评测也需要谨慎看待。大模型 benchmark 可能受到测试集污染、题目泄露、训练数据重叠和选择性汇报影响。如果训练数据里包含测试题目或答案，模型分数就可能高估真实能力。因此，评测结果只有在数据来源、测试流程和失败样例都足够透明时，才更有参考价值。

同行评审为什么对大语言模型很重要

DeepSeek-R1 的另一个特殊之处，是相关研究经过了独立同行评审。对于大语言模型来说，这件事不只是学术流程，而是直接关系到模型能力声明是否可信。

大模型行业里常见几类问题：

问题	风险
只展示最有利的 benchmark	用户难以判断模型在真实任务中的稳定性
训练数据与测试集重叠	榜单分数可能被高估
缺少安全测试细节	很难评估模型被滥用的门槛
能力声明过大	使用者可能在医疗、法律、科研等高风险场景中过度信任模型
闭源或信息不足	外部研究者无法复现实验，也难以定位缺陷

同行评审不能保证模型没有问题，但它能迫使研究团队回答更具体的问题：训练数据怎么来，评测是否公平，基准是否有污染，安全性怎么测，失败案例是什么，哪些结论有证据支持，哪些只是推测。

对于开放权重模型，这一点更关键。开放权重意味着外部研究者和普通用户可以下载、测试、微调和部署模型。开放带来两个方向的影响：

影响	具体表现
积极面	社区可以复现实验、发现缺陷、做安全评估、开发改进版本
风险面	恶意用户也可能移除安全限制，构建更危险的变体

所以，开放权重模型不应该只公布性能分数，还应该说明安全测试、滥用风险、限制条件和防护策略。透明不是把所有商业秘密公开，而是让关键能力声明经得起证据检验。

DeepSeek-R1 路线带来的启发

DeepSeek-R1 的技术路线可以概括为一句话：用可验证任务上的强化学习发现推理能力，再用多阶段训练把这种能力整理成可读、通用、相对安全的模型行为。

它带来的启发主要有三点。

第一，推理能力不一定完全来自人工标注的推理过程。
当任务可以自动评分时，模型能够通过试错学会自我检查、验证和策略调整。人工数据仍然有价值，但不再是唯一来源。

第二，纯强化学习能激发能力，但不等于最终产品形态。
R1-Zero 展示了能力涌现，DeepSeek-R1 则说明工程化模型还需要可读性、指令遵循、通用能力和安全对齐。

第三，大模型能力需要更透明的验证机制。
benchmark 分数只是证据的一部分。训练数据、评测方法、安全测试、失败案例和外部审查同样重要。模型越强，影响范围越大，越需要可复核的能力声明。

DeepSeek-R1 的意义不只在于某些榜单成绩，而在于它把“强化学习如何激发大模型推理能力”这件事做成了可讨论、可评审、可复现度更高的技术路线。对于后续推理模型训练来说，这比单次分数领先更有长期价值。

菜单