DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

MetaData

发表时间 2024.01.22
作者：DeepSeek AI
论文链接：https://arxiv.org/abs/2501.12948v1
项目链接：暂无

摘要

我们介绍了我们第一代推理模型：DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero模型通过大规模强化学习（RL）进行训练，无需监督微调（SFT）作为预备步骤，展现出显著的推理能力。通过强化学习，DeepSeek-R1-Zero自然地展现出许多强大而有趣的推理行为。然而，它也面临一些挑战，例如可读性差和语言混合。
为了解决这些问题并进一步提高推理性能，我们引入了DeepSeek-R1，它在强化学习之前结合了多阶段训练和冷启动数据。DeepSeek-R1在推理任务上的性能可与OpenAI-o1-1217相媲美。
为了支持研究社区，我们开源了DeepSeek-R1-Zero、DeepSeek-R1，以及六个基于Qwen和Llama从DeepSeek-R1蒸馏出的稠密模型（1.5B、7B、8B、14B、32B、70B）。

图1 DeepSeek-R1的基准性能

引言

近年来，大型语言模型（LLM）经历了快速迭代与发展，逐渐缩小了与人工通用智能（AGI）之间的差距。
后训练（post-training）已成为完整训练流程中的一个重要组成部分。它已被证明可以提高推理任务的准确性，与社会价值观保持一致，并适应用户偏好，同时与预训练相比需要相对较少的计算资源。在推理能力方面，OpenAI的o1系列模型率先通过增加思维链推理过程的长度引入了推理时间缩放。这种方法在各种推理任务（如数学、编码和科学推理）中取得了显著改进。然而，有效的测试时间缩放的挑战仍然是研究界的一个开放性问题。此前的一些工作已经探索了各种方法，包括基于过程的奖励模型（process-based reward models）、强化学习以及蒙特卡洛树搜索（Monte Carlo Tree Search）和束搜索（Beam Search）等搜索算法。然而，这些方法都没有达到与OpenAI的o1系列模型相当的通用推理性能。
在本文中，我们朝着使用纯强化学习（RL）提高语言模型推理能力迈出了第一步。我们的目标是探索LLM在没有任何监督数据的情况下发展推理能力的潜力，重点关注其通过纯RL过程的自我进化。具体来说，我们使用DeepSeek-V3-Base作为基础模型，并采用GRPO（Group Relative Policy Optimization）作为RL框架来提高模型在推理方面的性能。在训练过程中，DeepSeek-R1-Zero自然而然地展现出许多强大而有趣的推理行为。经过数千步的强化学习后，DeepSeek-R1-Zero在推理基准测试上表现出超群的性能。例如，在AIME 2024上的pass@1得分从15.6%提高到71.0%，并且通过多数投票，得分进一步提高到86.7%，与OpenAI-o1-0912的性能相匹配。
然而，DeepSeek-R1-Zero也面临着可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能，我们引入了DeepSeek-R1，它结合了少量冷启动数据和多阶段训练流程。具体来说，我们首先收集数千条冷启动数据来微调DeepSeek-V3-Base模型。之后，我们执行类似于DeepSeek-R1-Zero的定向推理强化学习（reasoning-oriented RL）。在强化学习过程接近收敛时，我们通过对强化学习检查点进行拒绝采样（rejection sampling），并结合来自DeepSeek-V3在写作、事实性问答和自我认知等领域的监督数据，创建新的SFT数据，然后重新训练DeepSeek-V3-Base模型。使用新数据微调后，检查点将进行额外的强化学习过程，同时考虑来自所有场景的提示。完成这些步骤后，我们得到了一个名为DeepSeek-R1的检查点，其性能与OpenAI-o1-1217不相上下。
我们进一步探索了从DeepSeek-R1到更小的稠密模型的知识蒸馏。使用Qwen2.5-32B作为基础模型，直接从DeepSeek-R1进行知识蒸馏优于对其应用强化学习。这表明，由更大的基础模型发现的推理模式对于提高推理能力至关重要。我们开源了蒸馏后的Qwen和Llama系列。值得注意的是，我们蒸馏后的14B模型大幅超越了最先进的开源模型QwQ-32B-Preview，而蒸馏后的32B和70B模型在稠密模型的推理基准测试中创造了新的记录。

1.1贡献

后训练阶段：基于基础模型的大规模强化学习

我们直接将强化学习应用于基础模型，无需依赖监督微调(SFT)作为预备步骤。此方法允许模型探索用于解决复杂问题的思维链(CoT)，从而开发出DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我验证（self-verification）、反思（reflection）和生成长CoT等能力，这标志着研究领域的一个重要里程碑。值得注意的是，这是第一个公开的研究验证了大语言模型(LLM)的推理能力可以通过纯强化学习来激励，而无需SFT。这一突破为该领域的未来发展铺平了道路。
我们介绍了开发DeepSeek-R1的流程。该流程包含两个强化学习阶段，旨在发现改进的推理模式并与人类偏好保持一致，以及两个SFT阶段，作为模型推理和非推理能力的种子。我们相信该流程将通过创建更好的模型造福行业。

蒸馏：小型模型也能强大

我们证明，大型模型的推理模式可以蒸馏到小型模型中，这与在小型模型上通过强化学习发现的推理模式相比，性能更好。开源的DeepSeek-R1及其API将使研究界能够在未来蒸馏出更好的小型模型。
使用DeepSeek-R1生成的推理数据，我们微调了研究界广泛使用的几个密集模型。评估结果表明，蒸馏后的较小型密集模型在基准测试中表现出色。DeepSeek-R1-Distill-Qwen-7B在AIME 2024上取得了55.5%的成绩，超过了QwQ-32B-Preview。此外，DeepSeek-R1-Distill-Qwen-32B在AIME 2024上得分72.6%，在MATH-500上得分94.3%，在LiveCodeBench上得分57.2%。这些结果显著优于之前的开源模型，并且与o1-mini相当。我们向社区开源了基于Qwen2.5和Llama3系列的15亿、70亿、80亿、140亿、320亿和700亿参数的蒸馏检查点。

1.2评估结果摘要

推理任务：(1)DeepSeek-R1在AIME 2024上取得了79.8%的Pass@1得分，略高于OpenAI-o1-1217。在MATH-500上，它获得了令人印象深刻的97.3%的得分，与OpenAI-o1-1217不相上下，并且显著优于其他模型。(2)在与编码相关的任务中，DeepSeek-R1在代码竞赛任务中展现出专家级水平，因为它在Codeforces上获得了2029分的Elo等级，超过了竞赛中96.3%的人类参与者。对于与工程相关的任务，DeepSeek-R1的表现略优于DeepSeek-V3，这可以帮助开发人员完成现实世界中的任务。
知识：在MMLU、MMLU-Pro和GPQA Diamond等基准测试中，DeepSeek-R1取得了优异的成绩，其得分显著优于DeepSeek-V3，在MMLU上得分90.8%，在MMLU-Pro上得分84.0%，在GPQA Diamond上得分71.5%。虽然其在这些基准测试上的性能略低于OpenAI-o1-1217，但DeepSeek-R1超过了其他闭源模型，展示了其在教育任务中的竞争优势。在事实基准SimpleQA上，DeepSeek-R1优于DeepSeek-V3，证明了其处理基于事实查询的能力。在此基准测试中，OpenAI-o1超过4o的趋势也类似。
其他：DeepSeek-R1还在各种任务中表现出色，包括创意写作、一般性问答、编辑、摘要等等。它在AlpacaEval 2.0上取得了令人印象深刻的87.6%的长度控制胜率，在ArenaHard上取得了92.3%的胜率，展示了其智能处理非考试导向查询的强大能力。此外，DeepSeek-R1在需要长文本理解的任务中表现出色，在长文本基准测试中大大优于DeepSeek-V3。

2 方法

2.1 概述

以往的工作严重依赖大量的监督数据来提高模型性能。在本研究中，我们证明了即使不使用监督微调（SFT）作为冷启动，也可以通过大规模强化学习（RL）显著提高推理能力。此外，通过加入少量冷启动数据，可以进一步提高性能。在接下来的章节中，我们将介绍：

DeepSeek-R1-Zero：它直接将RL应用于基础模型，无需任何SFT数据。
DeepSeek-R1：它从使用数千个长链式思维（CoT）示例微调的检查点开始应用 RL。
将DeepSeek-R1中的推理能力蒸馏到小型稠密模型中。

2.2 DeepSeek-R1-Zero：基于基础模型的强化学习

强化学习在推理任务中已显示出显著的有效性。然而，这些工作严重依赖于监督数据，而收集监督数据非常耗时。在本节中，我们探讨了大语言模型（LLM）在没有任何监督数据的情况下发展推理能力的潜力，重点关注它们通过纯强化学习过程的自我进化。我们首先简要概述我们的RL算法，然后介绍一些令人兴奋的结果，并希望这能为社区提供宝贵的见解。

2.2.1 强化学习算法

分组相对策略优化
为了节省RL的训练成本，我们采用分组相对策略优化（Group Relative Policy Optimization，GRPO），它放弃了通常与策略模型大小相同的评判模型，而是从分组分数中估计基线。具体来说，对于每个问题 $q$ ，GRPO从旧策略 $\pi_{\theta}_{old}$ 中采样一组输出 ${o_1, o_2, \cdots, o_G}$ ，然后通过最大化以下目标来优化策略模型 $\pi_{\theta}$ ：

其中 $\epsilon$ 和 $\beta$ 是超参数， $A_{i}}$ 是优势，它使用对应于每个组内输出的一组奖励 ${r_1, r_2, \dots, r_G}$ 计算：

2.2.2 奖励建模

奖励是训练信号的来源，它决定了强化学习的优化方向。为了训练DeepSeek-R1-Zero，我们采用了一个基于规则的奖励系统，该系统主要包含两种类型的奖励：

准确性奖励：准确性奖励模型评估响应是否正确。例如，对于具有确定性结果的数学问题，模型需要以指定的格式（如在方框内）提供最终答案，从而能够可靠地基于规则验证其正确性。同样，对于LeetCode问题，可以使用编译器根据预定义的测试用例生成反馈。
格式奖励：除了准确性奖励模型外，我们还采用了格式奖励模型，该模型强制模型将其思考过程放在\<think>和\</think>标签之间。
在开发DeepSeek-R1-Zero时，我们没有采用结果或过程神经奖励模型，因为我们发现神经奖励模型在大规模强化学习过程中可能会遭受奖励作弊的影响，而重新训练奖励模型需要额外的训练资源，并且会使整个训练流程复杂化。

2.2.3 训练模板

为了训练DeepSeek-R1-Zero，我们首先设计了一个简单的模板，指导基础模型遵守我们指定的指令。如表1所示，此模板要求DeepSeek-R1-Zero首先生成推理过程，然后给出最终答案。我们故意将约束限制在这个结构化格式上，避免任何内容相关的偏差——例如要求反思推理或提升特定的问题解决策略——以确保我们能够准确地观察模型在强化学习过程中的自然进展。

表1： DeepSeek-R1-Zero 模板。 prompt 将在训练期间替换为具体的推理问题。

2.2.4 DeepSeek-R1-Zero的性能、自我进化过程和顿悟时刻

DeepSeek-R1-Zero的性能
图2描述了DeepSeek-R1-Zero在整个强化学习训练过程中在AIME 2024基准测试上的性能轨迹。如图所示，随着强化学习训练的推进，DeepSeek-R1-Zero的性能展现出稳定且持续的提升。值得注意的是，AIME 2024上的平均pass@1分数显着提高，从最初的15.6%跃升至令人印象深刻的71.0%，达到了与OpenAI-o1-0912相当的性能水平。这一显著改进突显了我们的强化学习算法在优化模型性能方面的有效性。

图 2： DeepSeek-R1-Zero 在训练期间的 AIME 准确率。对于每个问题，我们采样 16 个答案并计算整体平均准确率以确保评估的稳定性。

表2对DeepSeek-R1-Zero和OpenAI的o1-0912模型在各种推理相关基准上的进行了比较分析。研究结果表明，强化学习使DeepSeek-R1-Zero能够获得强大的推理能力，而无需任何监督微调数据。这是一个值得注意的成就，因为它强调了模型仅通过强化学习就能有效学习和泛化的能力。此外，DeepSeek-R1-Zero的性能可以通过应用多数投票进一步增强。例如，当在AIME基准测试上采用多数投票时，DeepSeek-R1-Zero的性能从71.0%上升到86.7%，从而超过了OpenAI-o1-0912的性能。DeepSeek-R1-Zero能够在使用和不使用多数投票的情况下都获得如此具有竞争力的性能，这突显了其强大的基础能力及其在推理任务中进一步发展的潜力。

DeepSeek-R1-Zero的自进化过程
DeepSeek-R1-Zero的自进化过程是强化学习如何驱动模型自主提升其推理能力的一个引人入胜的案例。通过直接从基础模型启动强化学习，我们可以密切监控模型的进展，而不会受到监督微调阶段的影响。这种方法清晰地展现了模型如何随着时间的推移而进化，尤其是在处理复杂推理任务的能力方面。

如图3所示，DeepSeek-R1-Zero的思考时间在整个训练过程中持续改进。这种改进并非外部调整的结果，而是模型内部发展的体现。DeepSeek-R1-Zero通过利用更长的测试时间计算，自然地获得了解决越来越复杂的推理任务的能力。这种计算方式涉及生成数百到数千个推理token，使模型能够更深入地探索和优化其思维过程。

图 3： RL过程中DeepSeek-R1-Zero在训练集上的平均响应长度。 DeepSeek-R1-Zero能够自然地学会利用更长的思考时间来解决推理任务。

此次自进化最显著的方面之一是，随着测试时间计算的增加，复杂行为的出现。诸如：反思——模型重新审视和重新评估其之前的步骤；以及探索解决问题的替代方法等行为会自发出现。这些行为并非显式编程，而是模型与强化学习环境交互的结果。这种自发发展显著增强了DeepSeek-R1-Zero的推理能力，使其能够更高效、更准确地处理更具挑战性的任务。

DeepSeek-R1-Zero的“顿悟（Aha Moment）”时刻
在DeepSeek-R1-Zero的训练过程中观察到一个特别有趣的现象，即“顿悟”时刻的出现。如表3所示，这一时刻出现在模型的中间版本中。在此阶段，DeepSeek-R1-Zero通过重新评估其初始方法来学习将更多思考时间分配给问题。这种行为不仅证明了模型推理能力的增强，也是强化学习如何带来意想不到和复杂结果的一个引人入胜的例子。

这一时刻不仅是模型的“顿悟时刻”，也是观察其行为的研究人员的“顿悟时刻”。它强调了强化学习的强大和美丽：我们不是显式地教模型如何解决问题，而是简单地为其提供正确的激励，它会自主开发先进的问题解决策略。“顿悟时刻”有力地提醒了强化学习在释放人工智能系统新智能水平方面的潜力，为未来更自主和自适应的模型铺平了道路。

DeepSeek-R1-Zero的缺点
尽管DeepSeek-R1-Zero表现出强大的推理能力，并自主发展出意想不到且强大的推理行为，但它也面临一些问题。例如，DeepSeek-R1-Zero难以应对可读性差和语言混合等挑战。为了使推理过程更具可读性并与开放社区共享，我们探索了DeepSeek-R1，这是一种利用具有用户友好型冷启动数据的强化学习的方法。

2.3 DeepSeek-R1：具有冷启动的强化学习

受DeepSeek-R1-Zero令人鼓舞的结果启发，出现了两个自然问题：1）通过加入少量高质量数据作为冷启动，能否进一步提高推理性能或加快收敛速度？2）如何训练一个用户友好的模型，使其不仅能够生成清晰连贯的思维链(CoT)，而且展现强大的通用能力？为了解决这些问题，我们设计了DeepSeek-R1的训练流程。该流程包含四个阶段，概述如下:

2.3.1 冷启动

与DeepSeek-R1-Zero不同，为了避免强化学习训练从基础模型开始的早期不稳定冷启动阶段，对于DeepSeek-R1，我们构建并收集少量长的CoT数据来微调模型作为初始RL执行器。为了收集此类数据，我们探索了几种方法：(1)使用少样本提示，其中包含一个长CoT作为示例；(2)直接提示模型生成包含反思和验证的详细答案；(3)以可读格式整理DeepSeek-R1-Zero的输出；（4）以及通过人工标注者的后期处理来细化结果。

在这项工作中，我们收集了数千条冷启动数据，以微调DeepSeek-V3-Base作为RL的起点。与DeepSeek-R1-Zero相比，冷启动数据的优势包括：

可读性（Readability）：DeepSeek-R1-Zero的一个关键限制是其内容通常不适合阅读。响应可能会混合多种语言，或者缺乏markdown格式来突出显示用户的答案。相反，在为DeepSeek-R1创建冷启动数据时，我们设计了一种可读的模式，它在每个响应末尾包含一个摘要，并且过滤掉不适合阅读的响应。这里，我们将输出格式定义为|special_token|\<reasoning_process>|special_token|\<summary>，其中reasoning_process是查询的CoT，summary用于总结推理结果。
潜力（Potential）：通过利用人类先验知识精心设计冷启动数据的模式，我们观察到比DeepSeek-R1-Zero更好的性能。我们认为迭代训练是推理模型的更好方法。

2.3.2 面向推理的强化学习

在冷启动数据上微调DeepSeek-V3-Base后，我们应用了与DeepSeek-R1-Zero中相同的规模化强化学习训练过程。本阶段侧重于增强模型的推理能力，尤其是在编码、数学、科学和逻辑推理等推理密集型任务中，这些任务涉及具有明确解决方案的明确定义的问题。在训练过程中，我们观察到，当强化学习提示涉及多种语言时，思维链（CoT）经常表现出语言混合现象。为了减轻语言混合问题，我们在强化学习训练过程中引入了一种语言一致性奖励，该奖励计算为思维链中目标语言单词的比例。尽管消融实验表明这种对齐会导致模型性能略有下降，但这种奖励符合人类偏好，使其更易于阅读。最后，我们通过直接将推理任务的准确性和语言一致性奖励相加来形成最终奖励。然后，我们对微调后的模型应用强化学习训练，直到其在推理任务上达到收敛。

2.3.3 拒绝采样和监督微调

当面向推理的强化学习收敛时，我们利用生成的检查点为后续轮次收集监督微调(SFT)数据。与主要关注推理的初始冷启动数据不同，此阶段结合了来自其他领域的数据，以增强模型在写作、角色扮演和其他通用任务中的能力。具体来说，我们按照如下描述生成数据并微调模型。

推理数据
我们整理推理提示，并通过对上述强化学习检查点进行拒绝采样来生成推理轨迹。在上一阶段，我们只包含可以使用基于规则的奖励进行评估的数据。然而，在本阶段，我们扩展了数据集，引入了额外的数据，其中部分数据使用生成式奖励模型，通过将真实答案和模型预测结果输入DeepSeek-V3进行判定。此外，由于模型输出有时混乱且难以阅读，我们过滤掉了包含混合语言、长段落和代码块的思维链。对于每个提示，我们对多个响应进行采样，并仅保留正确的响应。总共，我们收集了大约60万个与推理相关的训练样本。

非推理数据
对于非推理数据，例如写作、事实性问答、自我认知和翻译，我们采用DeepSeek-V3 Pipline并复用DeepSeek-V3的SFT数据集的部分内容。对于某些非推理任务，我们在回答问题之前，通过提示调用DeepSeek-V3生成潜在的思维链（CoT）。但是，对于更简单的查询，例如“你好”，我们不会提供思维链作为回应。最后，我们总共收集了大约20万个与推理无关的训练样本。

我们使用上述约80万个样本的精选数据集，对DeepSeek-V3-Base进行两个epoch的微调。

2.3.4 所有场景的强化学习

为了进一步使模型符合人类偏好，我们实施了一个二次强化学习阶段，旨在提升模型的有用性和(helpfulness)无害性(harmlessness)，同时优化其推理能力。具体来说，我们使用奖励信号和多样化的提示分布组合来训练模型。
对于推理数据，我们遵循DeepSeek-R1-Zero中概述的方法，该方法利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于一般数据，我们采用奖励模型来捕捉复杂和细微场景中的人类偏好。我们基于DeepSeek-V3管道并采用类似的偏好对和训练提示分布。
对于有用性，我们只关注最终摘要，确保评估强调响应对用户的实用性和相关性，同时最大限度地减少对底层推理过程的干扰。对于无害性，我们评估模型的整个响应，包括推理过程和摘要，以识别和减轻生成过程中可能出现的任何潜在风险、偏差或有害内容。最终，奖励信号和多样化数据分布的整合使我们能够训练一个在推理方面表现出色，同时优先考虑有用性和无害性的模型。

2.4 蒸馏：赋予小型模型推理能力

为了使更高效的小型模型具备像DeepSeek-R1这样的推理能力，我们使用DeepSeek-R1整理的800k个样本对开源模型进行了直接微调，例如Qwen和Llama，详情见下文。我们的研究结果表明，这种直接的蒸馏方法显著增强了小型模型的推理能力。我们在此使用的基础模型包括Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B和Llama-3.3-70B-Instruct。我们选择Llama-3.3是因为其推理能力略优于Llama-3.1。

对于蒸馏后的模型，我们只应用监督微调（SFT），不包括强化学习（RL）阶段，即使加入RL可以大幅提升模型性能。我们这里的主要目标是证明蒸馏技术的有效性，将RL阶段的探索留给更广泛的研究群体。

3 实验

基准测试
我们在以下基准测试中评估模型的性能：

MMLU
MMLU-Redux
MMLU-Pro
C-Eval
CMMLU
IFEval
FRAMES
GPQA Diamond
SimpleQA
C-SimpleQA
SWE-Bench Verified
AIDER 1
LiveCodeBench (2024-08 – 2025-01)
Codeforces 2
中国全国高中数学奥林匹克竞赛（CNMO 2024）
美国邀请赛数学考试 2024 (AIME 2024)
除了标准基准测试外，我们还使用大型语言模型作为评判者来评估模型在开放式生成任务上的表现。具体来说，我们遵循AlpacaEval 2.0和Arena-Hard的原始配置，它们利用GPT-4-Turbo-1106作为评判者进行成对比较。在这里，我们只提供最终摘要进行评估，以避免长度偏差。对于蒸馏后的模型，我们在 AIME 2024、MATH-500、GPQA Diamond、Codeforces 和 LiveCodeBench 上报告了具有代表性的结果。

评估提示
遵循DeepSeek-V3中的设置，使用simple-evals框架中的提示评估MMLU、DROP、GPQA Diamond和SimpleQA等标准基准测试。对于MMLU-Redux，我们在零样本设置中采用Zero-Eval提示格式。对于MMLU-Pro、C-Eval 和 CLUE-WSC，由于原始提示是少样本的，我们将其稍作修改为零样本设置。少样本中的思维链（CoT）可能会损害DeepSeek-R1的性能。其他数据集遵循其原始评估协议，使用创建者提供的默认提示。对于代码和数学基准测试：

HumanEval-Mul 数据集涵盖八种主流编程语言（Python、Java、C++、C#、JavaScript、TypeScript、PHP 和 Bash）。
LiveCodeBench 上的模型性能使用思维链（CoT）格式进行评估，数据收集时间为2024年8月至2025年1月。
Codeforces数据集使用来自10场Div.2竞赛的问题以及专家设计的测试用例进行评估，之后计算预期的评分和竞争对手的百分比。
SWE-Bench验证结果通过无代理框架获得。
AIDER相关的基准测试使用“diff”格式进行测量。
DeepSeek-R1 的输出每个基准测试最多限制为 32,768 个 token。

基线
我们针对多个强大的基线进行了全面的评估，包括 DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini 和 OpenAI-o1-1217。由于在中国大陆访问OpenAI-o1-1217 API具有挑战性，我们根据官方报告报告其性能。对于蒸馏模型，我们还比较了开源模型 QwQ-32B-Preview。

评估设置
我们将模型的最大生成长度设置为32,768个token。我们发现，使用贪婪解码来评估长输出推理模型会导致更高的重复率以及不同检查点之间存在显著差异。因此，我们默认使用pass@ $k$ 评估并使用非零温度下报告pass@1结果。具体来说，我们使用 $0.6$ 的采样温度和 $0.95$ 的 top- $p$ 值来生成 $k$ 响应（通常在 $4$ 和 $64$ 之间，具体取决于每个问题的测试集大小）。然后，pass@1 计算为：
$\text{pass@1} = \frac{1}{k} \sum_{i=1}^{k} p_i,$
其中 $p_i$ 表示第 $i$ 个响应的正确性。此方法提供了更可靠的性能估计。对于AIME 2024，我们还报告了使用 $64$ 个样本的一致性（多数投票）结果，表示为cons@ $64$ 。

3.1 DeepSeek-R1 评估

对于面向教育的知识基准测试，例如MMLU、MMLU-Pro 和 GPQA Diamond，DeepSeek-R1表现出优于DeepSeek-V3的性能。此改进主要归因于STEM相关问题准确性的提高，其中通过大规模强化学习取得了显著进展。此外，DeepSeek-R1在FRAMES上表现出色，FRAMES是一项依赖长上下文的问答任务，展示了其强大的文档分析能力。这突出了推理模型在人工智能驱动的搜索和数据分析任务中的潜力。在事实基准SimpleQA上，DeepSeek-R1的性能优于DeepSeek-V3，证明其处理基于事实查询的能力。在此基准测试中，OpenAI-o1优于GPT-4o，也观察到了类似的趋势。但是，DeepSeek-R1在中文SimpleQA基准测试中的性能不如DeepSeek-V3，这主要是因为其在安全强化学习后倾向于拒绝回答某些查询。在没有安全强化学习的情况下，DeepSeek-R1可以达到超过70%的准确率。

DeepSeek-R1还在IF-Eval上取得了令人印象深刻的结果，IF-Eval是一个旨在评估模型遵循格式指令能力的基准测试。这些改进可以与监督微调(SFT)和RL训练的最后阶段包含指令跟踪数据有关。此外，在AlpacaEval2.0和ArenaHard上观察到卓越的性能，表明DeepSeek-R1在写作任务和开放领域问答方面的优势。它显著优于DeepSeek-V3，突显了大规模强化学习的泛化优势，这不仅提高了推理能力，而且还提高了跨不同领域的性能。此外，DeepSeek-R1生成的摘要长度较为精炼，在ArenaHard上的平均长度为689个token，在AlpacaEval 2.0上则为2,218个字符。这表明DeepSeek-R1在基于GPT的评估中避免了引入长度偏差，进一步巩固了其在多种任务中的鲁棒性。

在数学任务上，DeepSeek-R1的性能与OpenAI-o1-1217不相上下，远超其他模型。在编码算法任务（例如LiveCodeBench和Codeforces）上也观察到了类似的趋势，其中注重推理的模型在这些基准测试中占据主导地位。在面向工程的编码任务上，OpenAI-o1-1217在Aider上的性能优于DeepSeek-R1，但在SWE Verified上取得了相当的性能。我们相信DeepSeek-R1的工程性能将在下一个版本中得到改进，因为目前相关的强化学习训练数据仍然非常有限。

3.2 蒸馏模型评估

如表5所示，简单地蒸馏DeepSeek-R1的输出使高效的DeepSeek-R1-7B（即 DeepSeek-R1-Distill-Qwen-7B，以下类似缩写）能够全面超越像GPT-4o-0513 这样的非推理模型。DeepSeek-R1-14B在所有评估指标上都超过了QwQ-32B-Preview，而DeepSeek-R1-32B和DeepSeek-R1-70B在大多数基准测试上都显著超过了o1-mini。这些结果证明了蒸馏的强大潜力。此外，我们发现将强化学习应用于这些蒸馏模型会产生进一步的显著增益。我们认为这值得进一步探索，因此这里仅展示简单的SFT蒸馏模型的结果。

4 讨论

4.1 蒸馏与强化学习

在3.2节中，我们可以看到，通过蒸馏DeepSeek-R1，小型模型可以取得令人印象深刻的结果。然而，还有一个问题尚待解答：在没有蒸馏的情况下，模型能否通过论文中讨论的大规模强化学习训练达到可比的性能？

为了回答这个问题，我们使用数学、代码和STEM数据对Qwen-32B-Base进行了大规模强化学习训练，训练步数超过10K步，最终得到DeepSeek-R1-Zero-Qwen-32B。表6所示的实验结果表明，经过大规模强化学习训练的32B基础模型，其性能与QwQ-32B-Preview不相上下。然而，从DeepSeek-R1蒸馏而来的DeepSeek-R1-Distill-Qwen-32B在所有基准测试中的性能都显著优于DeepSeek-R1-Zero-Qwen-32B。

因此，我们可以得出两个结论：首先，将更强大的模型蒸馏成更小的模型可以产生优异的结果，而依赖于本文中提到的大规模强化学习的小型模型需要巨大的计算能力，甚至可能无法达到蒸馏的性能。其次，虽然蒸馏策略既经济又有效，但要突破智能的界限，可能仍然需要更强大的基础模型和更大规模的强化学习。

4.2 未成功的尝试

在DeepSeek-R1的早期开发阶段，我们也遇到了一些失败和挫折。我们在此分享我们的失败经验以提供见解，但这并不意味着这些方法无法开发有效的推理模型。

过程奖励模型（PRM）
过程奖励模型（Process Reward Model，PRM）是一种引导模型朝着更好方法解决推理任务的合理方法。然而，在实践中，PRM具有三个主要的局限性，可能会阻碍其最终的成功。首先，在一般的推理中很难明确定义细粒度的步骤。其次，确定当前中间步骤是否正确是一项具有挑战性的任务。使用模型进行自动标注可能无法得到令人满意的结果，而人工标注不利于大规模扩展。第三，一旦引入基于模型的PRM，它不可避免地会导致奖励挟持，而对奖励模型进行再训练需要额外的训练资源，并且会使整个训练流程复杂化。总之，虽然PRM在重新排序模型生成的Top-N响应或辅助引导搜索方面表现出良好的能力，但与我们在实验中大规模强化学习过程中引入的额外计算开销相比，其优势有限。

蒙特卡洛树搜索（MCTS）
受AlphaGo和AlphaZero的启发，我们探索使用蒙特卡洛树搜索（Monte Carlo Tree Search，MCTS）来增强测试时间的计算可扩展性。此方法涉及将答案分解成更小的部分，以允许模型系统地探索解空间。为此，我们提示模型生成多个标签，这些标签对应于搜索所需的特定推理步骤。对于训练，我们首先使用收集到的提示，通过预训练的价值模型引导的MCTS来查找答案。随后，我们使用生成的问答对来训练actor模型和价值模型，迭代地改进该过程。
然而，这种方法在大规模扩展训练时遇到了一些挑战。首先，与搜索空间相对明确的国际象棋不同，文本生成涉及指数级增长的搜索空间。为了解决这个问题，我们为每个节点设置了最大扩展限制，但这可能会导致模型陷入局部最优解。其次，价值模型直接影响生成的质量，因为它指导搜索过程的每个步骤。训练细粒度的价值模型本身就很难，这使得模型难以迭代改进。尽管AlphaGo依靠价值模型的训练来逐步提升性能，但在我们的环境中，由于文本生成的复杂性，这一原则难以复制。
总之，虽然MCTS可以与预训练的价值模型结合使用，在推理过程中提高性能，但通过自我搜索迭代地提高模型性能仍然是一个巨大的挑战。

5 结论、局限性和未来工作

在这项工作中，我们分享了我们通过强化学习增强模型推理能力的历程。DeepSeek-R1-Zero代表了一种纯粹的强化学习方法，无需依赖冷启动数据，在各种任务中都取得了优异的性能。DeepSeek-R1更加强大，它利用冷启动数据以及迭代式强化学习微调。最终，DeepSeek-R1在一系列任务上的性能与OpenAI-o1-1217相当。
我们进一步探索了将推理能力蒸馏到小型稠密模型中。我们使用DeepSeek-R1作为教师模型生成80万个训练样本，并微调几个小型稠密模型。结果令人鼓舞：DeepSeek-R1-Distill-Qwen-1.5B在数学基准测试中优于GPT-4o和Claude-3.5-Sonnet，在AIME上达到28.9%的准确率，在MATH上达到83.9%的准确率。其他稠密模型也取得了令人印象深刻的结果，显著优于基于相同底层检查点的其他指令调优模型。

未来，我们计划在以下方向上对 DeepSeek-R1 进行研究投资：

通用能力：目前，DeepSeek-R1 在函数调用、多轮对话、复杂角色扮演和JSON 输出等任务上的能力不如DeepSeek-V3。展望未来，我们计划探索如何利用更长的思维链（CoT）来增强这些领域的任务。
语言混合：DeepSeek-R1目前针对中文和英文进行了优化，这可能会导致在处理其他语言的查询时出现语言混合问题。例如，即使查询并非英文或中文，DeepSeek-R1也可能使用英文进行推理和响应。我们计划在未来的更新中解决此限制。
提示工程：在评估DeepSeek-R1时，我们观察到它对提示很敏感。少样本提示始终会降低其性能。因此，我们建议用户直接描述问题并使用零样本设置指定输出格式以获得最佳结果。
软件工程任务：由于漫长的评估时间影响了强化学习过程的效率，因此大规模强化学习尚未广泛应用于软件工程任务中。结果，DeepSeek-R1在软件工程基准测试中并没有比DeepSeek-V3产生巨大的改进。未来版本将通过在软件工程数据上实现拒绝采样或在强化学习过程中结合异步评估来提高效率，从而解决这个问题。