DeepSeek-R1:通过强化学习激励 LLM 中的推理能力
DeepSeek-AI
research@deepseek.com
摘要
我们介绍了我们的第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一种通过大规模强化学习(RL)训练的模型,没有监督微调(SFT)作为初步步骤,展示了卓越的推理能力。通过 RL,DeepSeek-R1-Zero 自然出现了许多强大而有趣的推理行为。然而,它遇到了易读性差、语言混合等挑战。为了解决这些问题并进一步增强推理性能,我们引入了 DeepSeek-R1,它在 RL 之前融合了多阶段训练和冷启动数据。DeepSeekR1 在推理任务上实现了与 OpenAI-o1-1217 相当的性能。为了支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 从 DeepSeek-R1 中提炼出的六个密集模型(1.5B、7B、8B、14B、32B、70B)。
目录
1.简介
1.1.贡献
训练后:基础模型上的大规模强化学习
提炼:小模型同样强大
1.2.评估结果摘要
2.方法
2.1.概述
2.2. DeepSeek-R1-Zero:基础模型上的强化学习
2.2.1.强化学习算法
2.2.2.奖励模型
2.2.3.培训模板
2.2.4. DeepSeek-R1-Zero的性能、自我进化过程和顿悟时刻
2.3.DeepSeek-R1:冷启动强化学习
2.3.1.冷启动
2.3.2.推理导向的强化学习
2.3.3.拒绝抽样和监督微调
2.3.4.适用于所有场景的强化学习
2.4.提炼:赋予小模型推理能力
3.实验
3.1.DeepSeek-R1评估
3.2.蒸馏模型评估
4.讨论
4.1.蒸馏与强化学习
4.2.失败的尝试
5.结论、局限性和未来工作
1.简介
近年来,大型语言模型(LLM)经历了快速迭代和发展(Anthropic,2024年;Google,2024年;OpenAI,2024a),与通用人工智能(AGI)的差距逐渐缩小。
最近,后训练已成为整个训练流程的重要组成部分。事实证明,它可以提高推理任务的准确性,与社会价值观保持一致,并适应用户偏好,同时与预训练相比,它所需的计算资源相对较少。在推理能力方面,OpenAI的o1(OpenAI,2024b)系列模型首次通过增加Chain- ofThought推理过程的长度来引入推理时间扩展。这种方法在数学、编码和科学推理等各种推理任务中取得了显着的改进。然而,有效的测试时间扩展的挑战仍然是研究界的一个悬而未决的问题。之前已有多项研究探索了各种方法,包括基于过程的奖励模型(Lightman等人,2023年;Uesato等人,2022年:Wang等人,2023年)、强化学习(Kumar等人,2024年)以及蒙特卡洛树搜索和波束搜索等搜索算法(Feng等人,2024年;Trinh等人,2024年;Xin等人,2024年)。然而,这些方法都没有达到与OpenAI的o1系列模型相当的通用推理性能。
在本文中,我们迈出了使用纯强化学习(RL)来提升语言模型推理能力的第一步。我们的目标是探索LLM在没有任何监督数据的情况下开发推理能力的潜力,重点关注它们通过纯RL过程进行自我进化。具体来说,我们使用DeepSeek-V3-Base作为基础模型,并使用 GRPO(Shao et al., 2024)作为RL框架来提高模型的推理性能。在训练过程中,DeepSeek-R1-Zero自然而然地出现了许多强大而有趣的推理行为。经过数千个RL步骤后,DeepSeek-R1-Zero在推理基准上表现出超强的性能。例如,AIME2024上的pass@1分数从15.6%提高到71.0%,通过多数投票,分数进一步提高到86.7%,与OpenAI-o1-0912的性能相当。
然而,DeepSeek-R1-Zero面临着可读性差、语言混合等挑战。为了解决这些问题并进一步提升推理性能,我们推出了DeepSeek-R1,它结合了少量冷启动数据和多阶段训练流程。具体来说,我们首先收集数千个冷启动数据来微调DeepSeek-V3-Base模型,然后像DeepSeek-R1- Zero 一样进行面向推理的强化学习。当强化学习过程接近收敛时,我们通过对强化学习检查点进行拒绝采样创建新的SFT数据,结合DeepSeek-V3在写作、事实问答和自我认知等领域的监督数据,然后重新训练DeepSeek-V3-Base模型。在使用新数据进行微调之后,检查点会经历额外的强化学习过程,其中会考虑来自所有场景的提示。经过这些步骤,我们得到了一个称为DeepSeek-R1的检查点,其性能与OpenAI-o1-1217相当。
我们进一步探索从DeepSeek-R1到较小密集模型的蒸馏。使用Qwen2.5-32B(Qwen,2024b)作为基础模型,从DeepSeek-R1直接蒸馏的效果优于在其上应用强化学习。这表明,更大的基础模型发现的推理模式对于提高推理能力至关重要。我们开源了蒸馏后的Qwen 和 Llama (Dubey等人,2024)系列。值得注意的是,我们蒸馏后的14B模型的表现远胜于最先进的开源QwQ-32B-Preview(Qwen,2024a),而蒸馏后的32B和70B模型在密集模型的推理基准上创下了新纪录。
1.1.贡献
训练后:基础模型上的大规模强化学习
l 我们直接将RL应用于基础模型,而无需依赖监督微调(SFT)作为初步步骤。这种方法允许模型探索解决复杂问题的思路(CoT),从而开发出DeepSeek-R1-Zero。DeepSeek-R1- Zero 展示了自我验证、反思和生成长CoT等功能,标志着研究界的一个重要里程碑。值得注意的是,这是第一个公开研究,验证了LLM的推理能力可以纯粹通过RL来激励,而无需SFT。这一突破为该领域的未来发展铺平了道路。
l 我们引入了用于开发DeepSeek-R1的流水线。该流水线包含两个RL阶段,旨在发现改进的推理模式并与人类偏好保持一致,以及两个SFT阶段,作为模型推理和非推理能力的种子。我们相信该流水线将通过创建更好的模型使行业受益。
提炼:小模型同样强大
l 我们证明了较大模型的推理模式可以提炼为较小的模型,与通过强化学习在小型模型上发现的推理模式相比,其性能更佳。开源的DeepSeek-R1及其API将有利于研究界在未来提炼出更好的小型模型。
l 利用DeepSeek-R1生成的推理数据,我们对研究社区中广泛使用的几个密集模型进行了微调。评估结果表明,提炼后的较小密集模型在基准测试中表现优异。DeepSeek-R1- Distill-Qwen-7B在AIME2024上取得了55.5%的成绩,超过了QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B在AIME2024上的得分为72.6%,在MATH-500上的得分为94.3%,在LiveCodeBench上的得分为57.2%。这些结果明显优于之前的开源模型,与o1-mini相当。我们向社区开源了基于Qwen2.5和Llama3系列的提炼后的1.5B、7B、8B、14B、32B和70B检查点。
1.2.评估结果摘要
l 推理任务: (1)DeepSeek-R1在AIME2024上取得了79.8%的Pass@1分数,略高于 OpenAl-o1-1217。在MATH-500上,它取得了令人印象深刻的97.3%的分数,与 OpenAI-o1-1217相当,并明显优于其他模型。(2)在与编码相关的任务中,DeepSeek- R1在代码竞赛任务中表现出专家级水平,因为它在Codeforces上获得了2,029 Elo评级,比比赛中96.3%的人类参与者表现更好。对于与工程相关的任务,DeepSeek-R1的表现略优于DeepSeek-V3,这可以帮助开发人员完成现实世界的任务。
l 知识: 在MMLU、MMLU-Pro和GPQADiamond等基准测试中,DeepSeek-R1取得了出色的成绩,在MMLU上的得分为90.8%,在MMLU-Pro上的得分为84.0%,在 GPQA Diamond 上的得分为71.5%,远远优于DeepSeek-V3。虽然DeepSeek-R1在这些基准测试中的表现略低于OpenAI-o1-1217,但它超越了其他闭源模型,展示了其在教育任务中的竞争优势。在事实基准SimpleQA上,DeepSeek-R1的表现优于DeepSeek- V3,展示了其处理基于事实的查询的能力。OpenAI-o1在这个基准测试中超越了4o,也呈现出了类似的趋势。
l 其他: DeepSeek-R1在创意写作、一般问答、编辑、总结等一系列任务上也表现出色。它在AlpacaEval2.0上取得了令人印象深刻的87.6%的长度控制胜率,在ArenaHard上取得了92.3%的胜率,展示了其强大的智能处理非考试导向查询的能力。此外, DeepSeek-R1在需要长上下文理解的任务上表现出色,在长上下文基准测试中大大优于 DeepSeek-V3。
2.方法
2.1.概述
先前的研究严重依赖大量监督数据来提高模型性能。在本研究中,我们证明,即使不使用监督微调(SFT)作为冷启动,大规模强化学习(RL)也可以显著提高推理能力。此外,通过加入少量冷启动数据可以进一步提高性能。在以下部分中,我们将介绍:(1)DeepSeek-R1-Zero,它将RL直接应用于基础模型,而无需任何SFT数据;(2)DeepSeek-R1,它从使用数千个长思路链(CoT)示例微调的检查点开始应用RL。3)将DeepSeek-R1的推理能力提炼到小型密集模型中。
2.2. DeepSeek-R1-Zero:基础模型上的强化学习
强化学习在推理任务中表现出显著的有效性,这一点可以从我们之前的研究(Shao等人,2024; Wang等人,2023)中看出。然而,这些研究严重依赖于监督数据,而收集这些数据需要耗费大量时间。在本节中,我们将探索LLM在没有任何监督数据的情况下开发推理能力的潜力,重点关注它们通过纯强化学习过程的自我进化。我们首先简要概述我们的RL算法,然后介绍一些令人兴奋的结果,希望这能为社区提供有价值的见解。
2.2.1.强化学习算法
组相对策略优化为了节省强化学习的训练成本,我们采用组相对策略优化(GRPO)(Shao et al.,2024),它放弃了通常与策略模型大小相同的批评模型,而是从组分数估计基线。具体来说,对于每个问题q,GRPO 从旧策略πoold中抽取一组输出{0),0z・・,0c},然后通过最大化以下目标来优化策略模型πo:
其中ε和β是超参数,A是优势,使用对应于每个组内输出的一组奖励{rs, rz,...,ra} 计算得出:
用户和助手之间的对话。用户提出问题,助手解答。助手首先在脑海中思考推理过程,然后为用户提供答案。推理过程和答案包含在<think></think>和
<answer></answer>标签,即<think>推理过程如下</think><answer>在这里回答</answer>。
用户:提示。助手:
表1DeepSeek-R1-Zero的模板。训练期间,提示将被替换为具体的推理问题。
2.2.2.奖励模型
奖励是训练信号的来源,决定了强化学习的优化方向。为了训练DeepSeek-R1-Zero,我们采用了基于规则的奖励系统,该系统主要包含两种类型的奖励:
l 准确度奖励: 准确度奖励模型评估响应是否正确。例如,在结果确定的数学问题中,模型需要以指定的格式(例如,在方框内)提供最终答案,从而实现可靠的基于规则的正确性验证。同样,对于LeetCode问题,可以使用编译器根据预定义的测试用例生成反馈。
l 格式奖励: 除了准确性奖励模型之外,我们还采用了格式奖励模型,强制模型将其思维过程置于'<think>' 和'</think>'标签。
在开发DeepSeek-R1-Zero时,我们没有应用结果或过程神经奖励模型,因为我们发现神经奖励模型在大规模强化学习过程中可能会受到奖励黑客攻击,并且重新训练奖励模型需要额外的训练资源,并且使整个训练流程变得复杂。
2.2.3.培训模板
为了训练DeepSeek-R1-Zero,我们首先设计一个简单的模板,指导基础模型遵循我们指定的指令。如表1所示,此模板要求DeepSeek-R1-Zero首先生成一个推理过程,然后给出最终答案。我们有意将约束限制在这种结构格式上,避免任何特定于内容的偏见(例如强制进行反思性推理或推广特定的问题解决策略),以确保我们能够准确观察模型在RL过程中的自然进展。
2.2.4. DeepSeek-R1-Zero的性能、自我进化过程和顿悟时刻
DeepSeek-R1-Zero的性能图2描绘了DeepSeek-R1-Zero在整个RL训练过程中在AIME2024基准上的性能轨迹。如图所示,随着RL训练的进展,DeepSeek-R1-Zero的性能稳步提升。值得注意的是,AIME2024上的平均pass@1分数显着提高,从最初的15.6%跃升至令人印象深刻的71.0%,达到了与OpenAl-o1-0912相当的性能水平。这一显着的改进凸显了我们的RL算法在随时间优化模型性能方面的有效性。
表2提供了DeepSeek-R1-Zero与OpenAI的o1-0912模型在各种推理相关基准上的比较分析。研究结果表明,强化学习可以增强
DeepSeek-R1-Zero无需任何监督微调数据即可实现强大的推理能力。这是一项值得注意的成就,因为它强调了该模型仅通过RL就能有效学习和概括的能力。此外,通过应用多数投票, DeepSeek-R1-Zero的性能可以进一步增强。例如,当在AIME基准上使用多数投票时, DeepSeek-R1-Zero的性能从71.0%提升到86.7%,从而超过了OpenAI-o1-0912的性能。 DeepSeek-R1-Zero能够在有或没有多数投票的情况下实现如此具有竞争力的性能,凸显了其强大的基础能力以及在推理任务中进一步进步的潜力。
DeepSeek-R1-Zero的自我进化过程DeepSeek-R1-Zero的自我进化过程令人着迷地展示了RL如何驱动模型自主提高其推理能力。通过直接从基础模型启动RL,我们可以密切监控模型的进展,而不受监督微调阶段的影响。这种方法可以清楚地看到模型如何随时间演变,特别是在其处理复杂推理任务的能力方面。
如图3所示,DeepSeek-R1-Zero的思考时间呈现出持续的提升。
图3 DeepSeek-R1-Zero在强化学习过程中对训练集的平均响应长度。DeepSeek-R1-Zero自然学会了用更多的思考时间来解决推理任务。
在整个训练过程中,DeepSeek-R1-Zero的改进并不是外部调整的结果,而是模型内部的内在发展。DeepSeek-R1-Zero通过利用扩展的测试时间计算,自然而然地获得了解决日益复杂的推理任务的能力。这种计算范围从生成数百到数千个推理标记,使模型能够更深入地探索和改进其思维过程。
这种自我进化最引人注目的方面之一是,随着测试时间计算的增加,复杂的行为也随之出现。诸如反思(模型重新审视并重新评估其先前的步骤)和探索解决问题的替代方法等行为都是自发产生的。这些行为不是明确编程的,而是模型与强化学习环境交互的结果。这种自发发展显著增强了DeepSeek-R1-Zero的推理能力,使其能够以更高的效率和准确性应对更具挑战性的任务。
DeepSeek-R1-Zero的顿悟时刻在DeepSeek-R1-Zero训练期间观察到的一个特别有趣的现象是“顿悟时刻"的出现。如表3所示,此时刻发生在模型的中间版本中。在此阶段,DeepSeek- R1-Zero通过重新评估其初始方法学会为问题分配更多思考时间。这种行为不仅证明了模型不断增强的推理能力,而且是一个引人入胜的例子,展示了强化学习如何产生意想不到的复杂结果。
这一刻不仅是模型的“顿悟时刻",也是观察其行为的研究人员的“顿悟时刻"。它强调了强化学习的力量和魅力:我们无需明确地教模型如何解决问题,只需为其提供适当的激励,它就会自主地开发高级的解决问题策略。这一“顿悟时刻"有力地提醒了我们,强化学习有潜力在人工智能系统中开启新的智能水平,为未来更自主、更具适应性的模型铺平道路。
DeepSeek-R1-Zero的缺点尽管DeepSeek-R1-Zero表现出强大的推理能力,并自主开发出意想不到的强大推理行为,但它也面临一些问题。例如,DeepSeek-R1-Zero面临着可读性差和语言混合等挑战。为了使推理过程更具可读性并与开放社区分享,我们探索了DeepSeek-R1,这是一种利用强化学习和人性化冷启动数据的方法。
2.3.DeepSeek-R1:冷启动强化学习
受到DeepSeek-R1-Zero良好结果的启发,我们自然而然地产生了两个问题:1)通过引入少量高质量数据作为冷启动,是否可以进一步提高推理性能或加速收敛?2)如何训练一个用户友好的模型,该模型不仅可以产生清晰连贯的思维链(CoT),而且还具有强大的通用能力?为了解决这些问题,我们设计了一个流程来训练DeepSeek-R1。该流程由四个阶段组成,概述如下。
2.3.1.冷启动
与DeepSeek-R1-Zero不同,为了防止基础模型在RL训练早期出现不稳定的冷启动阶段,对于DeepSeek-R1,我们构建并收集少量的长CoT数据,以作为初始RL参与者对模型进行微调。为了收集此类数据,我们探索了几种方法:使用长CoT的少样本提示作为示例,直接提示模型通过反思和验证生成详细答案,以可读格式收集DeepSeek-R1-Zero输出,并通过人工注释者的后期处理来完善结果。
在本研究中,我们收集了数千个冷启动数据,以微调DeepSeek-V3-Base作为RL的起点。与DeepSeek-R1-Zero相比,冷启动数据的优势
包括:
l 可读性: DeepSeek-R1-Zero的一个关键限制是其内容通常不适合阅读。响应可能混合多种语言或缺乏markdown格式来为用户突出显示答案。相比之下,在为DeepSeek-R1创建冷启动数据时,我们设计了一种可读模式,在每个响应的末尾包含摘要,并过滤掉不易于阅读的响应。在这里,我们将输出格式定义为|特殊令牌|<reasoning_process>|特殊令牌|<summary>,其中推理过程是针对查询的 CoT,而summary用于总结推理结果。
l 潜力: 通过精心设计冷启动数据模式,结合人类先验知识,我们观察到其性能优于 DeepSeek-R1-Zero。我们相信迭代训练是推理模型的更好方法。
2.3.2.推理导向的强化学习
在冷启动数据上对DeepSeek-V3-Base进行微调后,我们采用与DeepSeek-R1-Zero相同的大规模强化学习训练流程,此阶段主要提升模型的推理能力,特别是在编码、数学、科学和逻辑推理等推理密集型任务中,这些任务涉及定义明确且解决方案明确的问题。在训练过程中,我们观察到CoT经常出现语言混合的情况,尤其是当RL提示涉及多种语言时。为了缓解语言混合的问题,我们在RL训练中引入了语言一致性奖励,其计算方式为CoT中目标语言单词的比例。虽然消融实验表明这种对齐会导致模型性能略有下降,但这种奖励符合人类的偏好,使其更具可读性。最后,我们将推理任务的准确率和语言一致性的奖励直接相加,形成最终奖励。然后,我们对微调后的模型进行RL训练,直到它在推理任务上实现收敛。
2.3.3.拒绝抽样和监督微调
当以推理为导向的强化学习收敛时,我们会利用生成的检查点来收集SFT(监督微调)数据,以供下一轮使用。与主要侧重于推理的初始冷启动数据不同,此阶段会整合来自其他领域的数据,以增强模型在写作、角色扮演和其他通用任务中的能力。具体来说,我们会生成数据并微调模型,如下所述。
推理数据我们通过从上述RL训练的检查点进行拒绝抽样来整理推理提示并生成推理轨迹。在上一阶段,我们仅包含可以使用基于规则的奖励进行评估的数据。但是,在此阶段,我们通过合并其他数据来扩展数据集,其中一些数据使用生成奖励模型,将基本事实和模型预测输入 DeepSeek-V3进行判断。此外,由于模型输出有时混乱且难以阅读,我们过滤掉了混合语言、长段落和代码块的思路链。对于每个提示,我们会抽样多个响应并仅保留正确的响应。总的来说,我们收集了大约600k个与推理相关的训练样本。
非推理数据对于非推理数据,例如写作、事实问答、自我认知和翻译,我们采用DeepSeek-V3流程并重用DeepSeek-V3的部分SFT数据集。对于某些非推理任务,我们会在提示回答问题之前调用DeepSeek-V3生成潜在的思路链。但是,对于更简单的查询,例如“你好”,我们不提供CoT作为响应。最终,我们总共收集了大约200k个与推理无关的训练样本。
我们使用上面整理的约800k个样本的数据集对DeepSeek-V3-Base进行了两个时期的微调。
2.3.4.适用于所有场景的强化学习
为了使模型与人类偏好进一步保持一致,我们实施了二级强化学习阶段,旨在提高模型的有用性和无害性,同时改进其推理能力。具体来说,我们使用奖励信号和各种提示分布的组合来训练模型。对于推理数据,我们遵循DeepSeek-R1-Zero中概述的方法,该方法利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于一般数据,我们采用奖励模型来捕捉复杂而微妙的场景中的人类偏好。我们以DeepSeek-V3管道为基础,采用类似的偏好对和训练提示分布。对于有用性,我们只关注最终摘要,确保评估强调响应对用户的实用性和相关性,同时最大限度地减少对底层推理过程的干扰。对于无害性,我们评估模型的整个响应,包括推理过程和摘要,以识别和减轻生成过程中可能出现的任何潜在风险、偏见或有害内容。最终,奖励信号和多样化数据分布的整合使我们能够训练一个擅长推理同时优先考虑有用性和无害性的模型。
2.4.提炼:赋予小模型推理能力
为了使更高效的小型模型具备像DeepSeek-R1这样的推理能力,我们使用DeepSeek-R1整理的800k个样本直接对Qwen (Qwen, 2024b)和Llama (AI@Meta,2024)等开源模型进行了微调,详情见g2.3.3。我们的研究结果表明,这种直接的提炼方法显著增强了小型模型的推理能力。我们在这里使用的基础模型是Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、 Qwen2.5-32B、Llama-3.1-8B和Llama-3.3-70B-Instruct。我们选择Llama-3.3是因为它的推理能力略优于Llama-3.1。
对于蒸馏模型,我们仅应用SFT,而不包含RL阶段,尽管加入RL可以显著提高模型性能。我们的主要目标是证明蒸馏技术的有效性,而将RL阶段的探索留给更广泛的研究社区。
3.实验
基准测试我们在MMLU(Hendrycks et al., 2020)、MMLU-Redux(Gema et al.,2024)、 MMLU-Pro (Wang et al., 2024)、C-Eval (Huang et al.,2023)、CMMLU(Liet alL.,2023)、 IFEval (Zhou et al.,2023)、FRAMES(Krishna et al., 2024)、GPQADiamond (Rein et al.,2023)、SimpleQA(OpenAI,2024c)、C-SimpleQA(He et al.,2024)、SWE-Bench Verified(OpenAI,2024d)、Aider’、LiveCodeBench(Jain等人,2024)(2024-08-2025-01)、Codeforces2、中国全国高中数学奥林匹克(CNMO2024)3和美国数学邀请赛2024(AIME 2024)(MAA,2024)。除了标准基准之外,我们还使用LLM作为评判者在开放式生成任务上评估我们的模型。具体来说,我们遵循AlpacaEval 2.0(Dubois等人,2024)和Arena-Hard (Li等人,2024)的原始配置,它们利用GPT-4-Turbo-1106作为成对比较的评判者。在这里,我们只将最终摘要提供给评估,以避免长度偏差。对于提炼模型,我们报告了AIME 2024、MATH-500、 GPQA Diamond、Codeforces和 LiveCodeBench的代表性结果。
评估提示按照DeepSeek-V3中的设置,使用simpleevals框架中的提示评估MMLU、DROP、 GPQADiamond和SimpleQA等标准基准测试。对于MMLU-Redux,我们在零样本设置中采用Zero-Eval提示格式(Lin,2024)。对于MMLU-Pro、C-Eval和CLUE-WSC,由于原始提示是少样本的,我们将提示稍微修改为零样本设置。少样本中的CoT可能会损害 DeepSeek-R1的性能。其他数据集遵循其原始评估协议,使用其创建者提供的默认提示。对于代码和数学基准测试,HumanEval-Mul数据集涵盖了八种主流编程语言(Python、Java、 C++、C#、JavaScript、TypeScript、PHP和Bash)。使用CoT格式评估LiveCodeBench上的模型性能,数据收集时间为2024年8月至2025年1月。使用来自10个Div.2竞赛的问题以及专家制作的测试用例评估Codeforces数据集,然后计算竞争对手的预期评分和百分比。通过无代理框架获得SWE-Bench验证结果(Xia等人,2024年)。使用“diff”格式测量与 AIDER相关的基准。每个基准的DeepSeek-R1输出上限为32,768个令牌。
基线我们针对几个强大的基线进行了全面的评估,包括DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAl-o1-mini和OpenAI-o1-1217。由于在中国大陆访问OpenAI-o1-1217 API具有挑战性,因此我们根据官方报告报告其性能。对于提炼模型,我们还比较了开源模型QwQ-32B-Preview(Qwen,2024a)。
评估设置我们将模型的最大生成长度设置为32,768个token。我们发现使用贪婪解码来评估长输出推理模型会导致更高的重复率和不同检查点之间的显著差异。因此,我们默认使用 pass@k评估(Chen等人,2021年)并使用非零温度报告pass@1。具体来说,我们使用0.6的采样温度和0.95的top-p值来为每个问题生成k个响应(通常在4到64之间,具体取决于测试集大小)。然后计算Pass@1为
其中pi表示第i个响应的正确性。此方法提供了更可靠的性能估计。对于AIME2024,我们还使用64个样本报告了共识(多数投票)结果(Wang等人,2022年),表示为cons@64。
1. https://aider.chat
2. https://codeforces.com
3. https://www.cms.org.cn/Home/comp/comp/cid/12.html
3.1. DeepSeek-R1 评估
对于MMLU、MMLU-Pro和GPQA Diamond等面向教育的知识基准,DeepSeek-R1表现出比DeepSeek-V3更好的性能。这种改进主要归因于STEM相关问题的准确性提高,通过大规模强化学习实现了显着的提升。此外,DeepSeek-R1在FRAMES(一项长期上下文相关的 QA任务)上表现出色,展示了其强大的文档分析能力。这凸显了推理模型在AI驱动的搜索和数据分析任务中的潜力。在事实基准SimpleQA上,DeepSeek-R1的表现优于DeepSeek-V3,展示了其处理基于事实的查询的能力。OpenAI-o1在此基准上超越GPT-4o也呈现出类似的趋势。然而,DeepSeek-R1在中国SimpleQA基准上的表现不如DeepSeek-V3,主要是因为它在安全强化学习后倾向于拒绝回答某些查询。在没有安全RL的情况下,DeepSeek-R1可以达到70%以上的准确率。
DeepSeek-R1在IF-Eval上也取得了令人印象深刻的结果,IF-Eval是一个旨在评估模型遵循格式指令的能力的基准。这些改进可以归因于在监督微调(SFT)和RL训练的最后阶段纳入了遵循指令的数据。此外,在AlpacaEval2.0和ArenaHard上也观察到了出色的表现,表明 DeepSeek-R1在写作任务和开放域问答方面具有优势。它显著优于DeepSeek-V3的表现凸显了大规模RL的泛化优势,这不仅提高了推理能力,还提高了跨不同领域的性能。此外, DeepSeek-R1生成的摘要长度简洁,在ArenaHard上平均为689个标记,在AlpacaEval 2.0上平均为2,218个字符。这表明DeepSeek-R1避免在基于GPT的评估中引入长度偏差,进一步巩固了其在多项任务中的稳健性。
在数学任务上,DeepSeek-R1的表现与OpenAI-o1-1217相当,远超其他模型。在编码算法任务上也观察到了类似的趋势,例如LiveCodeBench和Codeforces,在这些基准测试中,以推理为重点的模型占据主导地位。在面向工程的编码任务上,OpenAI-o1-1217在Aider上的表现优于DeepSeek-R1,但在SWEVerified上的表现相当。我们相信DeepSeek-R1的工程性能将在下一版本中得到改善,因为相关的RL训练数据量目前仍然非常有限。
3.2. 蒸馏模型评估
表5 DeepSeek-R1 提炼模型与其他同类模型在推理相关基准上的比较
如表5所示,只需对DeepSeek-R1的输出进行简单提炼,高效的DeepSeek-R1-7B(即 DeepSeek-R1-Distill-Qwen-7B,下文简称类似)就能全面超越GPT-4o-0513等非推理模型。 DeepSeek-R1-14B在所有评估指标上都超越了QwQ-32BPreview,而DeepSeek-R1-32B和 DeepSeek-R1-70B在大多数基准测试中都显著超过了o1-mini。这些结果证明了提炼的强大潜力。此外,我们发现将RL应用于这些提炼模型可以获得显著的进一步收益。我们认为这值得进一步探索,因此这里仅展示简单的SFT提炼模型的结果。
4.讨论
4.1.蒸馏与强化学习
在3.2节中,我们可以看到通过蒸馏DeepSeek-R1,小模型可以取得令人印象深刻的效果。然而,还有一个问题:如果不进行蒸馏,模型是否可以通过论文中讨论的大规模RL训练获得相当的性能?
为了回答这个问题,我们使用数学、代码和STEM数据对Qwen-32B-Base进行了大规模 RL训练,训练了超过10K步,最终得到了DeepSeek-R1-Zero-Qwen-32B。实验结果如表6所示,表明32B基础模型经过大规模
表6|推理相关基准上的提炼模型和RL模型的比较
RL训练的性能与QwQ-32B-Preview相当。然而,从DeepSeek-R1提炼出来的DeepSeek-R1- Distill-Qwen-32B在所有基准测试中的表现都明显优于DeepSeek-R1-Zero-Qwen-32B。
因此,我们可以得出两个结论:第一,将更强大的模型提炼成更小的模型可以产生很好的效果,而本文提到的依赖于大规模强化学习的小模型需要巨大的计算能力,甚至可能无法达到提炼的性能。第二,虽然提炼策略既经济又有效,但要超越智能的界限,可能仍需要更强大的基础模型和更大规模的强化学习。
4.2.失败的尝试
在开发DeepSeek-R1的早期阶段,我们也曾遇到过失败和挫折。我们在这里分享失败的经验是为了提供见解,但这并不意味着这些方法无法开发有效的推理模型。
过程奖励模型(PRM)PRM是一种合理的方法,可以引导模型朝着更好的方法解决推理任务(Lightman等,2023:Uesato等,2022:Wang等,2023)。然而,在实践中,PRM有三个主要限制,可能会阻碍其最终成功。首先,在一般推理中明确定义一个细粒度的步骤具有挑战性。其次,确定当前中间步骤是否正确是一项具有挑战性的任务。使用模型的自动注释可能无法产生令人满意的结果,而手动注释不利于扩大规模。第三,一旦引入基于模型的PRM,不可避免地会导致奖励黑客攻击(Gao等,2022),重新训练奖励模型需要额外的训练资源,并使整个训练流程复杂化。综上所述,虽然PRM表现出了对模型生成的前N个响应进行重新排序或协助引导搜索的良好能力(Snell等人,2024),但与我们实验中在大规模强化学习过程中引入的额外计算开销相比,它的优势是有限的。
蒙特卡洛树搜索(MCTS)受AlphaGo (Silver et al., 2017b)和AlphaZero (Silver etal.,2017a)的启发,我们探索使用蒙特卡洛树搜索(MCTS)来增强测试时计算可扩展性。此方法涉及将答案分解为更小的部分,以允许模型系统地探索解决方案空间。为了实现这一点,我们提示模型生成与搜索所需的特定推理步骤相对应的多个标签。对于训练,我们首先使用收集到的提示通过由预先训练的价值模型指导的MCTS来寻找答案。随后,我们使用生成的问答对来训练参与者模型和价值模型,并迭代地完善该过程。
然而,这种方法在扩大训练规模时遇到了一些挑战。首先,与国际象棋不同,国际象棋的搜索空间相对明确,而token生成则呈现出
搜索空间呈指数级增长。为了解决这个问题,我们为每个节点设置了最大扩展限制,但这可能会导致模型陷入局部最优。其次,价值模型直接影响生成的质量,因为它指导搜索过程的每个步骤。训练细粒度的价值模型本质上很困难,这使得模型难以迭代改进。虽然AlphaGo的核心成功依赖于训练价值模型来逐步提高其性能,但由于token生成的复杂性,这一原则在我们的设置中很难复制。
总之,虽然MCTS与预先训练的价值模型结合使用时可以提高推理过程中的性能,但通过自我搜索迭代地提升模型性能仍然是一个重大挑战。
5.结论、局限性和未来工作
在这项工作中,我们分享了通过强化学习增强模型推理能力的历程。DeepSeek-R1-Zero代表了一种不依赖冷启动数据的纯RL方法,在各种任务中都取得了出色的性能。DeepSeek-R1更强大,它利用冷启动数据和迭代RL微调。最终,DeepSeek-R1在一系列任务上实现了与 OpenAI-o1-1217相当的性能。
我们进一步探索将推理能力提炼到小型密集模型。我们使用DeepSeek-R1作为教师模型来生成800K个训练样本,并对几个小型密集模型进行微调。结果令人鼓舞:DeepSeek-R1- Distill-Qwen-1.5B在数学基准测试中的表现优于GPT-4o和Claude-3.5-Sonnet,在AIME上为28.9%,在MATH上为83.9%。其他密集模型也取得了令人印象深刻的结果,显著优于基于相同底层检查点的其他指令调整模型。
未来我们计划针对DeepSeek-R1在以下方向投入研究。
l 通用能力: 目前DeepSeek-R1在函数调用、多回合、复杂角色扮演、JSON输出等任务上的能力还不及DeepSeek-V3。未来我们计划探索如何利用CoT来增强这些领域的任务。·语言混合:DeepSeek-R1目前针对中文和英文进行了优化,这可能会导致在处理其他语言的查询时出现语言混合问题。例如,即使查询使用的语言不是英文或中文,DeepSeek- R1也可能使用英文进行推理和响应。我们计划在未来的更新中解决这一限制。
l 提示工程: 在评估DeepSeek-R1时,我们观察到它对提示很敏感。少量提示会持续降低其性能。因此,我们建议用户直接描述问题并使用零样本设置指定输出格式以获得最佳结果。
l 软件工程任务: 由于评估时间较长,影响了RL流程的效率,大规模RL尚未广泛应用于软件工程任务。因此,DeepSeek-R1在软件工程基准测试中并未表现出比DeepSeek-V3更大的改进。未来版本将通过对软件工程数据实施拒绝采样或在RL流程中加入异步评估来解决这个问题,以提高效率。
DeepSeek-R1论文(中英)文下载地址:https://pan.quark.cn/s/60606d013547