芥末
发布于 2025-09-17 / 0 阅读
0
0

DeepSeek-R1 的强化学习路线:从 R1-Zero 到可评审的大模型推理

DeepSeek-R1 的核心价值不只是“模型会做难题”,而是展示了一条训练推理模型的路线:不把人类写好的推理过程当作唯一标准,而是让大语言模型在可验证任务里通过强化学习不断试错,逐渐形成自己的解题策略。

这条路线背后的关键问题是:如果模型总是模仿人类给出的思维链,它学到的可能只是人类已经写出来的推理模式;如果奖励信号只关心最终答案是否正确,模型就有机会探索更多解法,包括人类不一定会提前设计出来的中间步骤。

DeepSeek-R1 的训练过程可以拆成三件事:

  1. 用强化学习(RL,Reinforcement Learning)直接训练基础模型,让模型在数学、编程等可验证任务上通过奖励信号提升推理能力。
  2. 用 GRPO(Group Relative Policy Optimization,群体相对策略优化)降低强化学习训练成本,让一组回答之间相互比较,而不是额外训练一个价值模型。
  3. 用多阶段训练修复 R1-Zero 的可读性、语言混用和通用能力问题,最终得到更接近实际使用需求的 DeepSeek-R1。

为什么大模型推理不能只靠人工思维链

大语言模型(LLM,Large Language Model)在复杂推理任务上的一个常见做法,是让模型输出思维链(CoT,Chain-of-Thought)。思维链的直观含义是:不要只给答案,而是把中间推导步骤写出来。

例如一道数学题,如果模型直接输出 42,我们很难判断它是算出来的,还是碰巧猜中;如果模型写出分解、计算、验证过程,就更容易发现错误,也更容易让模型在中间步骤上受益。

但思维链训练有一个问题:高质量推理过程通常需要人工标注或由更强模型生成,再经过筛选。这会带来几个限制。

方法学习信号来自哪里优点局限
基于提示的方法人在提示词里告诉模型“逐步思考”成本低,不一定重新训练模型能力受模型已有知识和提示质量影响
监督微调(SFT,Supervised Fine-Tuning)人工或模型生成的标准答案与推理过程输出格式稳定,容易控制风格依赖标注数据,可能让模型只模仿已有推理路径
强化学习根据答案正确性给奖励或惩罚模型可以通过试错探索策略奖励设计、训练稳定性和可读性都更难处理

DeepSeek-R1 最值得关注的地方,是它证明了一个基础模型可以在没有人工推理过程标注的情况下,仅靠可验证任务上的奖励信号,发展出复杂推理行为。这里的“可验证”很重要:数学题可以检查最终答案,代码题可以跑测试用例,选择题可以比对标准选项。只要答案能被自动评分,强化学习就有了明确反馈。


强化学习如何训练推理能力

强化学习训练推理模型时,可以把模型看成一个玩家,把每道题看成一个关卡。模型生成回答,相当于采取一连串动作;评分器检查答案是否正确,相当于给分。正确答案得到更高奖励,错误答案得到更低奖励,模型参数再根据奖励更新。

这个过程不是告诉模型“每一步应该怎么想”,而是告诉模型“这个结果好不好”。如果某些中间推理习惯经常通向正确答案,例如自我检查、重新计算、尝试替代解法,模型就会逐渐增加这些行为出现的概率。

强化学习框架可以抽象成下面的循环:

flowchart LR
    A[题目 / Prompt] --> B[大语言模型生成回答]
    B --> C[自动评分器]
    C --> D{奖励信号}
    D -->|高奖励| E[增强类似回答的概率]
    D -->|低奖励| F[降低类似回答的概率]
    E --> G[更新模型参数]
    F --> G
    G --> B

DeepSeek-R1 的强化学习框架中,评分器主要依赖规则化反馈。数学题可以匹配最终答案,编程题可以运行测试,部分任务可以检查格式是否符合要求。这样做的好处是奖励不需要再训练一个复杂的神经网络模型,反馈来源更直接。

DeepSeek-R1 的 RL 框架如下图所示:

DeepSeek-R1 的强化学习框架

这套框架的关键结构是“生成—评分—更新”。模型对同一个问题生成回答,奖励模块根据答案正确性和格式要求打分,训练算法再根据奖励调整策略。久而久之,模型会倾向于输出更容易拿高分的推理过程,而不是只学习某个固定模板。


GRPO:用“组内比较”替代单独的价值模型

很多大模型强化学习方法会使用 PPO(Proximal Policy Optimization,近端策略优化)。PPO 通常需要一个价值模型来估计某个回答未来能带来多少奖励,这个价值模型本身也要训练,成本不低。

DeepSeek-R1 使用的 GRPO 思路更直接:对同一个问题一次采样多个回答,把这些回答组成一个组,然后比较它们在组内的相对表现。得分高于组平均水平的回答被强化,得分低于组平均水平的回答被抑制。

简化后的过程如下:

for prompt in prompts:
    answers = policy.sample(prompt, n=group_size)

    rewards = []
    for answer in answers:
        reward = rule_based_score(prompt, answer)
        rewards.append(reward)

    mean_reward = mean(rewards)
    std_reward = std(rewards)

    advantages = []
    for reward in rewards:
        advantage = (reward - mean_reward) / (std_reward + 1e-8)
        advantages.append(advantage)

    policy.update(prompt, answers, advantages)

GRPO 的核心不是“这个回答绝对有多好”,而是“这个回答比同组其他回答好多少”。如果同一个题目生成了 8 个答案,其中 2 个答案正确、推理完整,另外 6 个答案错误或格式混乱,那么正确答案就会在组内获得更高相对优势。

可以把它理解成下面的结构:

flowchart TB
    A[同一道题] --> B1[回答 1]
    A --> B2[回答 2]
    A --> B3[回答 3]
    A --> B4[回答 4]

    B1 --> C[规则评分]
    B2 --> C
    B3 --> C
    B4 --> C

    C --> D[计算组内平均分和标准差]
    D --> E[得到每个回答的相对优势]
    E --> F[更新策略模型]

这种方法有两个直接好处:

设计作用
组内相对奖励不需要为每个回答估计复杂的长期价值,只比较同题回答的好坏
不单独训练价值模型减少训练资源和工程复杂度
保留策略约束避免模型为了奖励过度偏离原有语言能力

不过,GRPO 也依赖奖励信号的质量。如果评分器只奖励最终答案,而完全不约束语言和格式,模型可能会出现可读性差、夹杂多种语言、输出冗长等问题。R1-Zero 的局限正好说明了这一点。


R1-Zero:纯强化学习能激发推理,但不等于直接可用

DeepSeek-R1-Zero 是一个重要实验:它从 DeepSeek-V3 Base 出发,不依赖人工标注的推理过程,直接通过强化学习训练推理能力。

训练后,R1-Zero 自然出现了不少高级推理行为:

  • 自我反思:发现前一步可能有问题后重新检查。
  • 验证答案:在给出最终答案前反复核对。
  • 探索替代方案:一种解法不稳定时尝试另一种路径。
  • 更长的推理轨迹:复杂题目上愿意展开更多中间步骤。

这说明模型不是只能被动模仿人类提供的推理样本。只要任务有明确奖励,模型可以通过试错形成有用的推理习惯。

但 R1-Zero 也暴露了纯强化学习的副作用。它的回答可能难读,可能混用语言,也可能过度关注数学和代码这类可评分任务,对写作、开放域问答、通用对话等任务不够稳定。

所以,R1-Zero 更像是一个科学验证:纯 RL 可以激发推理能力。要得到真正可用的通用推理模型,还需要后续训练阶段把能力“整理”成稳定、可读、符合人类使用习惯的形式。


从 R1-Zero 到 DeepSeek-R1:多阶段训练补齐可用性

DeepSeek-R1 并不是只靠一轮强化学习训练出来的。完整路线包含拒绝采样、强化学习、监督微调等多个阶段,每个阶段解决一个具体问题。

DeepSeek-R1 的多阶段训练 pipeline 如下图所示:

DeepSeek-R1 的多阶段训练 pipeline

这条 pipeline 可以理解为:先证明推理能力可以通过 RL 涌现,再通过数据筛选、监督微调和进一步强化学习,把推理能力、通用语言能力和偏好对齐合在一起。

几个阶段的作用可以整理成表格:

阶段主要目标解决的问题
DeepSeek-R1-Zero用纯 RL 激发推理能力验证模型是否能通过试错学会推理策略
DeepSeek-R1 Dev1改善指令遵循与输出可读性缓解 R1-Zero 的格式混乱、语言混用问题
DeepSeek-R1 Dev2强化代码、数学和 STEM 推理提升高难任务上的稳定性
DeepSeek-R1 Dev3加入非推理语料和代码工程数据补齐写作、问答、通用生成和工程能力
DeepSeek-R1综合推理能力与人类偏好在强推理能力之外,提升可用性和安全边界

这里需要区分两个概念:

  • R1-Zero 的意义在于证明纯强化学习能够让推理能力出现。
  • R1 的意义在于把这种能力变成更适合真实使用的模型行为。

也就是说,纯 RL 是能力发现机制,多阶段训练是工程化落地机制。


为什么数学和代码适合训练推理模型

强化学习最怕奖励信号不可靠。开放式写作任务很难自动判断好坏,因为“好文章”“好回答”往往带有主观标准;数学和代码则不同,它们天然更容易评分。

任务类型是否容易自动评分适合 RL 的原因
数学题最终答案可比对,过程可通过格式约束辅助检查
编程题可以编译、运行单元测试或隐藏测试
选择题选项可直接匹配
开放域写作好坏标准复杂,容易依赖偏好模型
长篇对话中低需要同时考虑事实性、帮助性、安全性和上下文一致性

这也是 DeepSeek-R1 路线的重要前提:先在可验证任务里训练推理能力,再把这些能力迁移到更广泛的任务中。数学和代码不是全部应用场景,但它们提供了一个高质量训练场。


评测结果说明了什么

DeepSeek-R1 在多个主流 benchmark 上进行了评估,包括 MMLU(Massive Multitask Language Understanding,大规模多任务语言理解)、MMLU-Pro、C-Eval(中文综合评测)、GPQA Diamond(研究生级高难问答子集)、SimpleQA、SWE-bench Verified(软件工程任务评测集的人工验证子集)、LiveCodeBench 和 AIME(American Invitational Mathematics Examination,美国数学邀请赛)2024 等。

评测覆盖通用知识、中文能力、研究生级科学问题、软件工程、在线编程和数学竞赛等不同维度,不是只看单一榜单。

DeepSeek-R1 各训练阶段的评测结果如下:

DeepSeek-R1 各训练阶段的评测结果

从阶段性结果可以看到,多阶段训练并不是单纯堆数据,而是在不同能力之间做平衡:早期阶段突出推理能力,后续阶段逐渐改善通用语言生成、指令遵循和更复杂场景下的表现。最终模型在多数 benchmark 上取得更强结果,支持了“RL 激发推理能力 + 多阶段补齐可用性”这一路线。

评测也需要谨慎看待。大模型 benchmark 可能受到测试集污染、题目泄露、训练数据重叠和选择性汇报影响。如果训练数据里包含测试题目或答案,模型分数就可能高估真实能力。因此,评测结果只有在数据来源、测试流程和失败样例都足够透明时,才更有参考价值。


同行评审为什么对大语言模型很重要

DeepSeek-R1 的另一个特殊之处,是相关研究经过了独立同行评审。对于大语言模型来说,这件事不只是学术流程,而是直接关系到模型能力声明是否可信。

大模型行业里常见几类问题:

问题风险
只展示最有利的 benchmark用户难以判断模型在真实任务中的稳定性
训练数据与测试集重叠榜单分数可能被高估
缺少安全测试细节很难评估模型被滥用的门槛
能力声明过大使用者可能在医疗、法律、科研等高风险场景中过度信任模型
闭源或信息不足外部研究者无法复现实验,也难以定位缺陷

同行评审不能保证模型没有问题,但它能迫使研究团队回答更具体的问题:训练数据怎么来,评测是否公平,基准是否有污染,安全性怎么测,失败案例是什么,哪些结论有证据支持,哪些只是推测。

对于开放权重模型,这一点更关键。开放权重意味着外部研究者和普通用户可以下载、测试、微调和部署模型。开放带来两个方向的影响:

影响具体表现
积极面社区可以复现实验、发现缺陷、做安全评估、开发改进版本
风险面恶意用户也可能移除安全限制,构建更危险的变体

所以,开放权重模型不应该只公布性能分数,还应该说明安全测试、滥用风险、限制条件和防护策略。透明不是把所有商业秘密公开,而是让关键能力声明经得起证据检验。


DeepSeek-R1 路线带来的启发

DeepSeek-R1 的技术路线可以概括为一句话:用可验证任务上的强化学习发现推理能力,再用多阶段训练把这种能力整理成可读、通用、相对安全的模型行为。

它带来的启发主要有三点。

第一,推理能力不一定完全来自人工标注的推理过程。
当任务可以自动评分时,模型能够通过试错学会自我检查、验证和策略调整。人工数据仍然有价值,但不再是唯一来源。

第二,纯强化学习能激发能力,但不等于最终产品形态。
R1-Zero 展示了能力涌现,DeepSeek-R1 则说明工程化模型还需要可读性、指令遵循、通用能力和安全对齐。

第三,大模型能力需要更透明的验证机制。
benchmark 分数只是证据的一部分。训练数据、评测方法、安全测试、失败案例和外部审查同样重要。模型越强,影响范围越大,越需要可复核的能力声明。

DeepSeek-R1 的意义不只在于某些榜单成绩,而在于它把“强化学习如何激发大模型推理能力”这件事做成了可讨论、可评审、可复现度更高的技术路线。对于后续推理模型训练来说,这比单次分数领先更有长期价值。


评论