DeepSeek-R1:通过强化学习激励大语言模型的推理能力

February 24, 2025

摘要

我们介绍我们的第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,未经过监督微调(SFT)作为初步步骤,展示了卓越的推理能力。通过 RL,DeepSeek-R1-Zero 自然地表现出大量强大而有趣的推理行为。然而,它面临着阅读性差和语言混合等挑战。为了应对这些问题并进一步提高推理性能,我们引入了 DeepSeek-R1,该模型在 RL 之前结合了多阶段训练和冷启动数据。DeepSeek-R1 在推理任务上的表现可与 OpenAI-o1-1217 相媲美。为了支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及六个基于 Qwen 和 Llama 从 DeepSeek-R1 中提炼出的密集模型(1.5B、7B、8B、14B、32B、70B)。

1 简介

近年来,大型语言模型(LLMs)经历了快速的迭代和演变(OpenAI,2024a;Anthropic,2024;Google,2024),逐渐缩小了与人工通用智能(AGI)之间的差距。

最近,后训练已成为完整训练流程的重要组成部分。研究表明,它能够提高推理任务的准确性,与社会价值观保持一致,并适应用户偏好,同时在计算资源上相对于预训练要求相对较少。在推理能力方面,OpenAI 的 o1(OpenAI,2024b)系列模型首次通过增加思维链推理过程的长度引入了推理时缩放。这种方法在数学、编码和科学推理等各种推理任务中取得了显著的改进。然而,有效的测试时缩放的挑战仍然是研究界的一个未解之问。一些先前的研究探索了各种方法,包括基于过程的奖励模型(Uesato 等,2022;Lightman 等,2023;Wang 等,2023)、强化学习(Kumar 等,2024)以及蒙特卡罗树搜索和束搜索等搜索算法(Feng 等,2024;Xin 等,2024;Trinh 等,2024)。然而,这些方法都没有达到与 OpenAI 的 o1 系列模型相媲美的通用推理性能。

在本文中,我们迈出了提高语言模型推理能力的第一步,采用纯强化学习(RL)。我们的目标是探索大型语言模型(LLMs)在没有任何监督数据的情况下发展推理能力的潜力,重点关注它们通过纯RL过程的自我演化。具体而言,我们使用DeepSeek-V3-Base作为基础模型,并采用GRPO(Shao等,2024)作为RL框架,以提高模型在推理方面的表现。在训练过程中,DeepSeek-R1-Zero自然地出现了许多强大而有趣的推理行为。在经过数千步的RL后,DeepSeek-R1-Zero在推理基准测试中表现出超强的性能。例如,AIME 2024上的pass@1得分从15.6%提高到71.0%,并且通过多数投票,得分进一步提高至86.7%,与OpenAI-o1-0912的表现相匹配。

然而,DeepSeek-R1-Zero面临着可读性差和语言混杂等挑战。为了解决这些问题并进一步增强推理性能,我们引入了DeepSeek-R1,该模型结合了一小部分冷启动数据和多阶段训练流程。具体而言,我们首先收集数千条冷启动数据以微调DeepSeek-V3-Base模型。随后,我们像DeepSeek-R1-Zero一样进行面向推理的RL。在RL过程接近收敛时,我们通过对RL检查点进行拒绝采样生成新的SFT数据,并结合来自DeepSeek-V3在写作、事实问答和自我认知等领域的监督数据,然后重新训练DeepSeek-V3-Base模型。在使用新数据微调后,检查点经历了额外的RL过程,考虑到所有场景的提示。经过这些步骤,我们获得了一个被称为DeepSeek-R1的检查点,其性能与OpenAI-o1-1217相当。

我们进一步探索从DeepSeek-R1到更小密集模型的蒸馏。以Qwen2.5-32B(Qwen,2024b)作为基础模型,直接从DeepSeek-R1进行蒸馏的性能优于在其上应用RL。这表明,大型基础模型发现的推理模式对于提高推理能力至关重要。我们开源了蒸馏后的Qwen和Llama(Dubey等,2024)系列。值得注意的是,我们的蒸馏14B模型在很大程度上超越了最新的开源QwQ-32B-Preview(Qwen,2024a),而蒸馏后的32B和70B模型在密集模型的推理基准测试中创造了新的记录。

1.1贡献

后训练:base模型上的大规模强化学习

  • 我们直接在基础模型上应用强化学习(RL),而不依赖监督微调(SFT)作为初步步骤。这种方法使模型能够探索思维链(CoT)以解决复杂问题,从而开发出DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我验证、反思和生成长思维链等能力,标志着研究社区的重要里程碑。值得注意的是,这是首次开放研究验证大型语言模型(LLMs)的推理能力可以仅通过强化学习激励,而无需SFT。这一突破为未来该领域的进展铺平了道路。
  • 我们介绍了开发DeepSeek-R1的流程。该流程包含两个RL阶段,旨在发现改进的推理模式并与人类偏好对齐,以及两个SFT阶段,作为模型推理和非推理能力的种子。我们认为,该流程将通过创建更好的模型来惠及行业。

蒸馏:小模型也可以非常强大

  • 我们证明了大型模型的推理模式可以被蒸馏到小模型中,从而导致与通过RL在小模型上发现的推理模式相比取得更好的性能。开源的DeepSeek-R1及其API将使研究社区受益,以便将来能够蒸馏出更好的小模型。
  • 使用DeepSeek-R1生成的推理数据,我们对几个在研究社区广泛使用的密集模型进行了微调。评估结果表明,蒸馏出的小规模密集模型在基准测试中表现出色。DeepSeek-R1-Distill-Qwen-7B在AIME 2024上取得了55.5%的成绩,超过了QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B在AIME 2024上得分72.6%,在MATH-500上得分94.3%,在LiveCodeBench上得分57.2%。这些结果显著优于之前的开源模型,并且与o1-mini相当。我们对社区开源了基于Qwen2.5和Llama3系列的1.5B、7B、8B、14B、32B和70B检查点。

1.2 评估结果总结

  • 推理任务: (1) DeepSeek-R1 在 AIME 2024 上获得 79.8% 的 Pass@1 分数,略微超过 OpenAI-o1-1217。在 MATH-500 上,它取得了 97.3% 的令人印象深刻的成绩,表现与 OpenAI-o1-1217 相当,且明显优于其他模型。 (2) 在编码相关任务中,DeepSeek-R1 在代码竞赛任务中表现出专家水平,在 Codeforces 上获得了 2,029 的 Elo 评级,超过了 96.3% 的人类参赛者。对于工程相关任务,DeepSeek-R1 的表现略优于 DeepSeek-V3,这可能会帮助开发人员处理实际任务。
  • 知识:在 MMLU、MMLU-Pro 和 GPQA Diamond 等基准测试中,DeepSeek-R1 取得了优秀的结果,以 90.8% 的 MMLU、84.0% 的 MMLU-Pro 和 71.5% 的 GPQA Diamond 分数显著优于 DeepSeek-V3。尽管在这些基准测试中的表现略低于 OpenAI-o1-1217,DeepSeek-R1 超过了其他闭源模型,展现出其在教育任务中的竞争优势。在事实基准 SimpleQA 上,DeepSeek-R1 超过了 DeepSeek-V3,证明了其处理基于事实查询的能力。在这个基准上,OpenAI-o1 超过 4o 的类似趋势也有所体现。
  • 其他:DeepSeek-R1 在包括创意写作、一般问答、编辑、摘要等广泛任务中表现优异。在 AlpacaEval 2.0 上,它实现了 87.6% 的长度控制胜率,在 ArenaHard 上达到 92.3% 的胜率,展示了其智能处理非考试导向查询的强大能力。此外,DeepSeek-R1 在需要长上下文理解的任务上表现出色,在长上下文基准上显著优于 DeepSeek-V3。

2 方法

2.1 概述

之前的工作在很大程度上依赖于大量的监督数据来提高模型性能。在本研究中,我们展示了即使不使用监督微调(SFT)作为冷启动,通过大规模强化学习(RL),推理能力也可以显著提高。此外,通过加入少量冷启动数据,性能可以进一步增强。在接下来的部分中,我们介绍:(1) DeepSeek-R1-Zero,它直接将RL应用于基础模型而不使用任何SFT数据,(2) DeepSeek-R1,它从一个经过数千个长思维链(CoT)示例微调的检查点开始应用RL,(3) 将DeepSeek-R1的推理能力提炼到小型稠密模型中。

2.2 DeepSeek-R1-Zero:基础模型上的强化学习

强化学习在推理任务中表现出了显著的有效性,这在我们之前的工作中得到了证明(Wang et al., 2023; Shao et al., 2024)。然而,这些工作在很大程度上依赖于监督数据,而这些数据的收集耗时。在本节中,我们探索LLMs在没有任何监督数据的情况下发展推理能力的潜力,重点关注它们通过纯强化学习过程的自我演化。我们首先简要概述我们的RL算法,然后展示一些令人兴奋的结果,希望这能为社区提供有价值的见解。

2.2.1 强化学习算法

组相对策略优化 GRPO

2.2.2奖励建模

奖励是训练信号的来源,决定了强化学习的优化方向。为了训练DeepSeek-R1-Zero,我们采用了一个基于规则的奖励系统,主要由两种类型的奖励组成:

  • 准确性奖励:准确性奖励模型评估响应是否正确。例如,对于具有确定性结果的数学题,模型需要以指定格式(例如,放在一个框内)提供最终答案,从而实现可靠的基于规则的正确性验证。类似地,对于LeetCode问题,可以使用编译器根据预定义的测试用例生成反馈。
  • 格式奖励:除了准确性奖励模型,我们还采用了格式奖励模型,强制模型将思考过程放在‘<think>’和‘</think>’标签之间。

在开发DeepSeek-R1-Zero时,我们不应用结果或过程神经奖励模型,因为我们发现神经奖励模型在大规模强化学习过程中可能会遭受奖励破解,并且重新训练奖励模型需要额外的训练资源,从而使整个训练流程变得复杂。

2.2.3训练模板

为了训练DeepSeek-R1-Zero,我们首先设计了一个简单的模板,引导基础模型遵循我们指定的指令。如表1所示,该模板要求DeepSeek-R1-Zero首先生成推理过程,然后给出最终答案。我们故意将约束限制在这种结构格式上,避免任何特定内容偏见——例如,要求反思性推理或促进特定解决问题的策略——以确保我们能够准确观察模型在强化学习过程中的自然进展。

表1

2.2.4 Deepseek-R1-Zero的性能、自我进化过程和顿悟时刻

DeepSeek-R1-Zero的性能 图2展示了DeepSeek-R1-Zero在AIME 2024基准测试中整个强化学习训练过程中的性能轨迹。如图所示,DeepSeek-R1-Zero在强化学习训练进展过程中表现出稳定且持续的性能提升。值得注意的是,AIME 2024上的平均通过率@1分数显著增加,从最初的15.6%跃升至令人印象深刻的71.0%,达到了与OpenAI-o1-0912相当的性能水平。这一显著的改进突显了我们强化学习算法在优化模型性能方面的有效性。

图2:DeepSeek-R1-Zero在训练期间的AIME准确率。对于每个问题,我们采样16个响应并计算整体平均准确率,以确保评估的稳定性。

表2提供了DeepSeek-R1-Zero与OpenAI的o1-0912模型在多种推理相关基准测试中的比较分析。研究结果表明,强化学习使DeepSeek-R1-Zero能够在没有任何监督微调数据的情况下获得强大的推理能力。这是一个值得注意的成就,因为它强调了该模型通过仅依靠强化学习有效学习和泛化的能力。此外,通过应用多数投票,DeepSeek-R1-Zero的性能可以进一步增强。例如,当在AIME基准上使用多数投票时,DeepSeek-R1-Zero的性能从71.0%提升至86.7%,从而超过了OpenAI-o1-0912的表现。DeepSeek-R1-Zero在有无多数投票的情况下都能实现如此具有竞争力的性能,突显了其强大的基础能力及在推理任务中进一步发展的潜力。

表2

DeepSeek-R1-Zero的自我进化过程

DeepSeek-R1-Zero的自我进化过程是一个引人入胜的示范,展示了强化学习如何驱动模型自主提高其推理能力。通过直接从基础模型启动强化学习,我们可以在没有监督微调阶段影响的情况下,密切监测模型的进展。这种方法清晰地展示了模型如何随着时间的推移而演变,特别是在处理复杂推理任务的能力方面。

如图3所示,DeepSeek-R1-Zero的思考时间在整个训练过程中持续改善。这种改善不是外部调整的结果,而是模型内部的自然发展。DeepSeek-R1-Zero通过利用扩展的测试时计算,自然获得了解决日益复杂的推理任务的能力。这种计算范围从生成数百到数千个推理标记,使模型能够更深入地探索和完善其思维过程。

这一自我进化过程中最显著的方面之一是随着测试时计算的增加,复杂行为的出现。反思等行为——即模型重新审视和重新评估其先前步骤——以及探索解决问题的替代方法自发产生。这些行为并不是显式编程的,而是模型与强化学习环境互动的结果。这种自发的发展显著增强了DeepSeek-R1-Zero的推理能力,使其能够以更高的效率和准确性应对更具挑战性的任务。

图3:DeepSeek-R1-Zero在RL过程中训练集上的平均响应长度。DeepSeek-R1-Zero自然学会在更多思考时间内解决推理任务。

DeepSeek-R1-Zero的“顿悟时刻”
在DeepSeek-R1-Zero的训练过程中观察到的一个特别有趣的现象是“顿悟时刻”的出现。正如表3所示,这一时刻发生在模型的一个中间版本中。在这个阶段,DeepSeek-R1-Zero通过重新评估其初始方法,学习将更多思考时间分配给一个问题。这种行为不仅证明了模型不断增强的推理能力,也生动地展示了强化学习如何导致意想不到且复杂的结果。

这个时刻不仅是模型的“顿悟时刻”,也是观察其行为的研究人员的“顿悟时刻”。它强调了强化学习的力量和美妙:我们并不是明确地教模型如何解决问题,而是简单地为它提供适当的激励,它便自主发展出先进的问题解决策略。“顿悟时刻”强有力地提醒我们,强化学习有潜力在人工系统中解锁新的智能水平,为未来更自主和适应性强的模型铺平道路。

表3:DeepSeek-R1-Zero一个中间版本的有趣“恍然大悟时刻”。该模型学会了重新思考,使用拟人化的语气。这也是我们的一次恍然大悟时刻,让我们见证强化学习的力量和美。

DeepSeek-R1-Zero的缺陷
尽管DeepSeek-R1-Zero表现出强大的推理能力,并自主发展出意想不到且强大的推理行为,但它面临着几个问题。例如,DeepSeek-R1-Zero在可读性差和语言混合等挑战上存在困难。为了使推理过程更具可读性并与开放社区分享,我们探索了DeepSeek-R1,这是一种利用强化学习与人类友好的冷启动数据的方法。

2.3DeepSeek-R1:冷启动的强化学习

受DeepSeek-R1-Zero的良好结果的启发,出现了两个自然的问题:1)通过引入少量高质量数据作为冷启动,推理性能是否可以进一步提高或收敛加速?2)我们如何训练一个用户友好的模型,该模型不仅能够产生清晰连贯的思维链(CoT),还能够展现出强大的通用能力?为了解决这些问题,我们设计了一个训练DeepSeek-R1的流程。该流程分为四个阶段,如下所述。

2.3.1冷启动

与 DeepSeek-R1-Zero 不同,为了防止基础模型的强化学习训练在早期的不稳定冷启动阶段,DeepSeek-R1 构建并收集了一小部分长的 CoT 数据,以微调模型作为初始的 RL 执行者。为了收集这些数据,我们探索了几种方法:使用few-shot 提示以长 CoT 为例,直接提示模型生成带有反思和验证的详细答案,收集 DeepSeek-R1-Zero 的可读格式输出,并通过人工标注者进行后处理来完善结果。

在这项工作中,我们收集了数千条冷启动数据,以微调 DeepSeek-V3-Base 作为 RL 的起始点。与 DeepSeek-R1-Zero 相比,冷启动数据的优势包括:

  • 可读性:DeepSeek-R1-Zero 的一个主要局限性是其内容通常不适合阅读。回答可能混合多种语言,或缺乏 Markdown 格式来突出用户的答案。相反,在为 DeepSeek-R1 创建冷启动数据时,我们设计了一个可读的模式,包括每个响应末尾的摘要,并筛选掉不适合读者的回答。在这里,我们将输出格式定义为 |special_token|<reasoning_process>|special_token|<summary>,其中推理过程是针对查询的 CoT,而摘要用于总结推理结果。
  • 潜力:通过仔细设计带有人工先验的冷启动数据模式,我们观察到比 DeepSeek-R1-Zero 更好的表现。我们认为迭代训练是推理模型的更好方式。

2.3.2 面向推理的强化学习

在对 DeepSeek-V3-Base 进行冷启动数据的微调后,我们应用与 DeepSeek-R1-Zero 相同的大规模强化学习训练过程。此阶段专注于增强模型的推理能力,特别是在编码、数学、科学和逻辑推理等推理密集型任务中,这些任务涉及具有明确解决方案的明确定义问题。在训练过程中,我们观察到 CoT 经常表现出语言混合,特别是在 RL 提示涉及多种语言时。为了减轻语言混合的问题,我们在 RL 训练中引入了一种语言一致性奖励,该奖励通过计算 CoT 中目标语言单词的比例来确定。尽管消融实验表明,这种对齐会导致模型性能略微下降,但该奖励与人类偏好一致,使其更易读。最后,我们通过直接相加推理任务的准确性和语言一致性奖励来组合它们,形成最终奖励。然后,我们对微调后的模型进行 RL 训练,直到其在推理任务上达到收敛。

2.3.3 拒绝采样与监督微调

当面向推理的 RL 收敛时,我们利用生成的检查点收集 SFT(监督微调)数据以进行后续轮次。与最初的冷启动数据主要集中于推理不同,此阶段结合了来自其他领域的数据,以增强模型在写作、角色扮演和其他通用任务中的能力。具体而言,我们生成数据并按如下所述微调模型。

推理数据

我们策划推理提示,并通过对上述 RL 训练的检查点进行拒绝采样来生成推理轨迹。在前一个阶段,我们仅包括可以使用基于规则的奖励进行评估的数据。然而,在这一阶段,我们通过引入额外的数据来扩展数据集,其中一些数据使用生成奖励模型,通过将真实值和模型预测输入 DeepSeek-V3 进行判断。此外,由于模型输出有时混乱且难以阅读,我们过滤掉了混合语言的思维链、冗长的段落和代码块。对于每个提示,我们采样多个响应,仅保留正确的响应。总共收集了大约 60 万个与推理相关的训练样本。

非推理数据

对于非推理数据,如写作、事实问答、自我认知和翻译,我们采用 DeepSeek-V3 流程,并重用 DeepSeek-V3 的部分 SFT 数据集。对于某些非推理任务,我们调用 DeepSeek-V3 生成潜在的思维链,然后通过提示回答问题。然而,对于更简单的查询,例如“你好”,我们不提供思维链作为回应。最终,我们收集了大约 20 万个与推理无关的训练样本。

我们使用上述策划的数据集(约 80 万个样本)对 DeepSeek-V3-Base 进行了两轮微调。

2.3.4 所有场景的强化学习

为了进一步使模型与人类偏好保持一致,我们实施了一个次级强化学习阶段,旨在提高模型的帮助性和无害性,同时改进其推理能力。具体而言,我们使用奖励信号和多样化提示分布的组合来训练模型。在推理数据方面,我们遵循DeepSeek-R1-Zero中概述的方法,该方法利用基于规则的奖励来指导数学、编码和逻辑推理领域的学习过程。在一般数据方面,我们借助奖励模型来捕捉复杂和细微场景中的人类偏好。我们基于DeepSeek-V3管道,采用类似的偏好对和训练提示分布。对于帮助性,我们专注于最终总结,确保评估强调响应对用户的实用性和相关性,同时尽量减少对基础推理过程的干扰。对于无害性,我们评估模型的整个响应,包括推理过程和总结,以识别和缓解生成过程中的潜在风险、偏见或有害内容。最终,奖励信号和多样化数据分布的整合使我们能够训练出在推理方面出色,同时优先考虑帮助性和无害性的模型。

2.4 蒸馏:为小模型赋能推理能力

为了使更高效的小模型具备推理能力,例如 DeepSeek-R1,我们直接对开源模型进行微调,如 Qwen (Qwen, 2024b) 和 Llama (AI@Meta, 2024),使用了与 DeepSeek-R1 共同整理的 80 万个样本,详细信息见 §2.3.3。我们的研究结果表明,这种简单的蒸馏方法显著增强了小模型的推理能力。我们在这里使用的基础模型是 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。我们选择 Llama-3.3,因为它的推理能力稍强于 Llama-3.1。

对于蒸馏模型,我们仅应用 SFT,而不包括 RL 阶段,尽管纳入 RL 可能会显著提升模型性能。我们在这里的主要目标是展示蒸馏技术的有效性,将 RL 阶段的探索留给更广泛的研究社区。

3 实验

基准测试
我们在MMLU(Hendrycks等,2020)、MMLU-Redux(Gema等,2024)、MMLU-Pro(Wang等,2024)、C-Eval(Huang等,2023)和CMMLU(Li等,2023)、IFEval(Zhou等,2023)、FRAMES(Krishna等,2024)、GPQA Diamond(Rein等,2023)、SimpleQA(OpenAI,2024c)、C-SimpleQA(He等,2024)、SWE-Bench Verified(OpenAI,2024d)、Aider 1(https://aider.chat)、LiveCodeBench(Jain等,2024)(2024-08至2025-01)、Codeforces(https://codeforces.com)、中国国家中学数学奥林匹克(CNMO 2024)(https://www.cms.org.cn/Home/comp/comp/cid/12.html)和美国邀请数学考试2024(AIME 2024)(MAA,2024)上进行模型评估。除了标准基准外,我们还使用LLMs作为评审对开放式生成任务评估我们的模型。具体而言,我们遵循AlpacaEval 2.0(Dubois等,2024)和Arena-Hard(Li等,2024)的原始配置,利用GPT-4-Turbo-1106进行成对比较评审。在这里,我们只将最终摘要提交评估,以避免长度偏差。对于精简模型,我们报告在AIME 2024、MATH-500、GPQA Diamond、Codeforces和LiveCodeBench上的代表性结果。

评估提示
遵循DeepSeek-V3中的设置,使用simple-evals框架中的提示评估MMLU、DROP、GPQA Diamond和SimpleQA等标准基准。对于MMLU-Redux,我们在零样本设置中采用Zero-Eval提示格式(Lin,2024)。关于MMLU-Pro、C-Eval和CLUE-WSC,由于原始提示是少样本的,我们稍微调整提示至零样本设置。少样本中的CoT可能会对DeepSeek-R1的性能产生负面影响。其他数据集遵循其原始评估协议,使用其创建者提供的默认提示。对于代码和数学基准,HumanEval-Mul数据集涵盖八种主流编程语言(Python、Java、C++、C#、JavaScript、TypeScript、PHP和Bash)。对LiveCodeBench的模型性能评估采用CoT格式,数据收集时间为2024年8月至2025年1月。Codeforces数据集使用10场Div.2竞赛的问题和专家制作的测试案例进行评估,之后计算预期的评分和竞争者的百分比。SWE-Bench验证结果是通过无代理框架获得的(Xia等,2024)。与AIDER相关的基准使用“diff”格式进行测量。DeepSeek-R1的输出在每个基准上限制为最大32,768个标记。

基线
我们对多个强基线进行全面评估,包括DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini和OpenAI-o1-1217。由于在中国大陆访问OpenAI-o1-1217 API较为困难,我们根据官方报告报告其性能。对于精简模型,我们还比较开源模型QwQ-32B-Preview(Qwen,2024a)。

评估设置

我们将模型的最大生成长度设置为32,768个标记。我们发现,使用贪婪解码来评估长输出推理模型会导致更高的重复率以及不同检查点之间的显著变异性。因此,我们默认采用pass@𝑘评估(Chen等,2021),并报告使用非零温度的pass@1。具体而言,我们使用0.6的采样温度和0.95的top-𝑝值,为每个问题生成𝑘个响应(通常在4到64之间,具体取决于测试集的大小)。然后计算pass@1为

3.1 DeepSeek-R1评价

对于以教育为导向的知识基准,如MMLU、MMLU-Pro和GPQA Diamond,DeepSeek-R1的表现优于DeepSeek-V3。这一改进主要归因于STEM相关问题的准确性提升,通过大规模强化学习取得了显著进展。此外,DeepSeek-R1在FRAMES这一长期上下文依赖的问答任务中表现出色,展示了其强大的文档分析能力。这突显了推理模型在人工智能驱动的搜索和数据分析任务中的潜力。在事实基准SimpleQA上,DeepSeek-R1的表现超过了DeepSeek-V3,展示了其处理基于事实查询的能力。在这一基准上,OpenAI-o1的表现也超过了GPT-4o。然而,DeepSeek-R1在中文SimpleQA基准上的表现不如DeepSeek-V3,主要是由于其在安全强化学习后倾向于拒绝回答某些查询。如果没有安全强化学习,DeepSeek-R1的准确率可以超过70%。

DeepSeek-R1在IF-Eval上也取得了令人印象深刻的结果,这是一个旨在评估模型遵循格式指令能力的基准。这些改进与在监督微调(SFT)和强化学习训练的最后阶段加入遵循指令的数据有关。此外,在AlpacaEval2.0和ArenaHard上的卓越表现表明,DeepSeek-R1在写作任务和开放领域问答方面的优势。其显著优于DeepSeek-V3的表现突显了大规模强化学习的泛化优势,这不仅增强了推理能力,还提高了在不同领域的表现。此外,DeepSeek-R1生成的摘要长度简洁,在ArenaHard上平均为689个标记,在AlpacaEval 2.0上为2,218个字符。这表明DeepSeek-R1在基于GPT的评估中避免了引入长度偏差,进一步巩固了其在多项任务中的鲁棒性。

在数学任务中,DeepSeek-R1的表现与OpenAI-o1-1217相当,远超其他模型。在编码算法任务中,如LiveCodeBench和Codeforces,专注于推理的模型主导了这些基准。在工程导向的编码任务中,OpenAI-o1-1217在Aider上优于DeepSeek-R1,但在SWE Verified上表现相当。我们相信DeepSeek-R1的工程表现将在下一个版本中有所改善,因为目前相关的强化学习训练数据量仍然非常有限。

3.2 蒸馏模型评价

如表5所示,简单地对DeepSeek-R1的输出进行蒸馏,使高效的DeepSeek-R1-7B(即DeepSeek-R1-Distill-Qwen-7B,以下简写相似)在各个方面超越了非推理模型如GPT-4o-0513。DeepSeek-R1-14B在所有评估指标上都超过了QwQ-32B-Preview,而DeepSeek-R1-32B和DeepSeek-R1-70B在大多数基准测试中显著超过了o1-mini。这些结果展示了蒸馏的强大潜力。此外,我们发现对这些蒸馏模型应用强化学习可带来显著的进一步提升。我们认为这值得进一步探索,因此在此仅呈现简单SFT蒸馏模型的结果。

表5:DeepSeek-R1 蒸馏模型与其他可比较模型在推理相关基准上的比较。

4 讨论

4.1 蒸馏vs强化学习

表6

在第3.2节中,我们可以看到,通过蒸馏DeepSeek-R1,小模型能够取得令人印象深刻的结果。然而,仍然有一个问题:模型是否可以通过本文讨论的大规模强化学习训练在不进行蒸馏的情况下达到相当的性能?

为了回答这个问题,我们对Qwen-32B-Base进行了大规模的强化学习训练,使用数学、代码和STEM数据,训练超过10K步,得出了DeepSeek-R1-Zero-Qwen-32B。实验结果如表6所示,经过大规模强化学习训练的32B基础模型达到了与QwQ-32B-Preview相当的性能。然而,从DeepSeek-R1蒸馏而来的DeepSeek-R1-Distill-Qwen-32B在所有基准测试中表现明显优于DeepSeek-R1-Zero-Qwen-32B。

因此,我们可以得出两个结论:首先,将更强大的模型蒸馏成较小的模型能够获得出色的结果,而依赖于本文提到的大规模强化学习的小模型需要巨大的计算能力,甚至可能无法达到蒸馏的性能。其次,虽然提炼策略既经济又有效,但在智能的边界之外进一步发展仍可能需要更强大的基础模型和更大规模的强化学习。

4.2 不成功的尝试

在开发 DeepSeek-R1 的早期阶段,我们也遇到了失败和挫折。我们在这里分享我们的失败经验,以提供见解,但这并不意味着这些方法无法开发出有效的推理模型。

过程奖励模型(PRM)

PRM 是一种合理的方法,可以引导模型朝着更好的方式解决推理任务(Uesato 等,2022;Lightman 等,2023;Wang 等,2023)。然而,在实践中,PRM 有三个主要限制,这可能会阻碍其最终成功。首先,很难明确地定义一般推理中的细粒度步骤。其次,判断当前中间步骤是否正确是一项具有挑战性的任务。使用模型进行自动标注可能无法产生令人满意的结果,而手动标注则不利于规模化。第三,一旦引入基于模型的 PRM,必然会导致奖励黑客行为(Gao 等,2022),并且重新训练奖励模型需要额外的训练资源,这使整个训练流程变得复杂。总之,虽然 PRM 在重新排序模型生成的前 N 个响应或协助引导搜索方面表现出良好的能力(Snell 等,2024),但与其在我们实验中的大规模强化学习过程中引入的额外计算开销相比,其优势是有限的。

蒙特卡罗树搜索(MCTS)

受到 AlphaGo(Silver 等,2017b)和 AlphaZero(Silver 等,2017a)的启发,我们探索使用蒙特卡罗树搜索(MCTS)来增强测试时的计算可扩展性。这种方法涉及将答案分解为更小的部分,以便模型能够系统地探索解决方案空间。为此,我们提示模型生成多个标签,以对应于搜索所需的特定推理步骤。在训练中,我们首先使用收集到的提示通过预训练的价值模型指导 MCTS 找到答案。随后,我们使用生成的问题-答案对来训练演员模型和价值模型,迭代地完善这个过程。

然而,这种方法在扩大训练规模时遇到了几个挑战。首先,与国际象棋不同,国际象棋的搜索空间相对明确,而标记生成则呈指数级增长的搜索空间。为了解决这个问题,我们为每个节点设置了最大扩展限制,但这可能导致模型陷入局部最优。其次,价值模型直接影响生成的质量,因为它指导搜索过程的每一步。训练一个细粒度的价值模型本质上是困难的,这使得模型难以进行迭代改进。虽然 AlphaGo 的核心成功依赖于训练一个价值模型以逐步提升其性能,但由于标记生成的复杂性,这一原则在我们的设置中难以复制。

总之,尽管 MCTS 在与预训练的价值模型配对时可以提高推理性能,但通过自我搜索迭代提升模型性能仍然是一个重大挑战。

5 结论、限制和未来工作

在这项工作中,我们分享了通过强化学习增强模型推理能力的旅程。DeepSeek-R1-Zero代表了一种纯粹的强化学习方法,不依赖冷启动数据,在各种任务中实现了强劲的表现。DeepSeek-R1更为强大,结合了冷启动数据和迭代强化学习微调。最终,DeepSeek-R1在一系列任务上达到了与OpenAI-o1-1217相当的性能。

我们进一步探索将推理能力蒸馏到小型密集模型中。我们使用DeepSeek-R1作为教师模型生成80万训练样本,并微调多个小型密集模型。结果令人鼓舞:DeepSeek-R1-Distill-Qwen-1.5B在数学基准测试中以28.9%的AIME和83.9%的MATH超越了GPT-4o和Claude-3.5-Sonnet。其他密集模型也取得了令人印象深刻的结果,显著超越了基于相同基础检查点的其他指令调优模型。

未来,我们计划在以下方向上对DeepSeek-R1进行研究投资。

  • 通用能力:目前,DeepSeek-R1在函数调用、多轮对话、复杂角色扮演和JSON输出等任务上的能力尚不及DeepSeek-V3。展望未来,我们计划探索如何利用长链推理来增强这些领域的任务。
  • 语言混合:DeepSeek-R1目前针对中文和英文进行了优化,这可能导致在处理其他语言查询时出现语言混合问题。例如,DeepSeek-R1可能会在推理和响应中使用英语,即使查询使用的是英语或中文以外的语言。我们旨在在未来的更新中解决这一局限性。
  • 提示工程:在评估DeepSeek-R1时,我们观察到它对提示非常敏感。少量示例提示会持续降低其性能。因此,我们建议用户直接描述问题,并使用zero-shot设置指定输出格式,以获得最佳结果。
  • 软件工程任务:由于长时间的评估影响了强化学习过程的效率,大规模强化学习尚未广泛应用于软件工程任务。因此,DeepSeek-R1在软件工程基准测试中并未显示出相较于DeepSeek-V3的巨大改进。未来版本将通过在软件工程数据上实施拒绝采样或在强化学习过程中引入异步评估来提高效率。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容