书库技术与未来DeepSeek-R1: 通过强化学习激励LLM的推理能力
书籍封面

DeepSeek-R1: 通过强化学习激励LLM的推理能力

作者 DeepSeek-AI
15.0 分钟

摘要

DeepSeek-R1:通过强化学习激励LLM的推理能力

  • DeepSeek-AI发布了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1,展示了通过强化学习提升LLM推理能力的潜力,无需监督微调也能涌现出强大的推理行为。DeepSeek-R1通过多阶段训练和冷启动数据,实现了与OpenAI-o1-1217相当的推理性能。

  • 你能获得:

    • 了解DeepSeek-R1-Zero和DeepSeek-R1的技术细节。
    • 学习如何通过强化学习提升LLM的推理能力。
    • 了解DeepSeek-R1在多个基准测试中的卓越表现。

核心内容:

1. DeepSeek-R1-Zero:纯强化学习提升推理能力

  • DeepSeek-R1-Zero直接应用强化学习于基础模型,无需任何监督微调(SFT)。
  • 模型通过探索思维链(CoT)解决复杂问题,展现出自验证、反思和生成长CoT等能力。
  • 纯强化学习可以激励LLM的推理能力,无需SFT。
  • 在AIME 2024上的pass@1分数从15.6%提升至71.0%,多数投票后可达86.7%,与OpenAI-o1-0912性能相当。

2. DeepSeek-R1:冷启动数据与多阶段训练

  • DeepSeek-R1在DeepSeek-V3-Base模型的基础上,通过少量冷启动数据进行微调,并采用多阶段训练流程。
  • 流程包括两个强化学习阶段,旨在发现改进的推理模式并与人类偏好对齐;以及两个SFT阶段,为模型的推理和非推理能力提供基础。
  • 通过拒绝抽样创建新的SFT数据,结合写作、事实问答和自我认知等领域的监督数据,重新训练DeepSeek-V3-Base模型。
  • 最终DeepSeek-R1实现了与OpenAI-o1-1217相当的性能。

3. 知识蒸馏:小模型也能拥有强大推理能力

  • 通过知识蒸馏,将大型模型的推理模式迁移到小型模型,可获得比小型模型通过强化学习获得的推理模式更好的性能。
  • DeepSeek-R1-Distill-Qwen-7B在AIME 2024上达到55.5%,超过QwQ-32B-Preview。
  • DeepSeek-R1-Distill-Qwen-32B在AIME 2024上达到72.6%,MATH-500上达到94.3%,LiveCodeBench上达到57.2%,超越之前的开源模型,与o1-mini相当。

4. DeepSeek-R1的卓越性能

  • 在AIME 2024上,DeepSeek-R1的Pass@1得分为79.8%,略高于OpenAI-o1-1217。
  • 在MATH-500上,DeepSeek-R1的得分高达97.3%,与OpenAI-o1-1217持平,显著优于其他模型。
  • 在Codeforces上,DeepSeek-R1的代码竞赛水平达到专家级别,Elo评分为2,029,超过96.3%的参赛者。
  • 在MMLU、MMLU-Pro和GPQA Diamond等基准测试中,DeepSeek-R1取得了优异成绩,显著优于DeepSeek-V3。

5. 失败的尝试:过程奖励模型(PRM)和蒙特卡洛树搜索(MCTS)

  • 过程奖励模型(PRM)存在难以明确定义细粒度步骤、难以确定中间步骤是否正确以及容易导致奖励作弊等局限性。
  • 蒙特卡洛树搜索(MCTS)在token生成方面面临更大的搜索空间,且难以训练细粒度的价值模型。

问答

Q: DeepSeek-R1-Zero是如何实现推理能力提升的?

A: DeepSeek-R1-Zero通过直接应用强化学习于基础模型,使其在没有监督微调的情况下,通过探索思维链(CoT)解决复杂问题,从而实现推理能力的提升。

Q: DeepSeek-R1相比DeepSeek-R1-Zero有哪些改进?

A: DeepSeek-R1通过引入少量高质量冷启动数据进行微调,并采用多阶段训练流程,解决了DeepSeek-R1-Zero在可读性和语言混合方面的问题,并进一步提升了推理性能。

Q: 知识蒸馏在提升小模型推理能力方面有什么优势?

A: 知识蒸馏可以将大型模型的推理模式迁移到小型模型,使其在计算资源有限的情况下,也能获得与大型模型相当的推理能力,甚至超过小型模型通过强化学习获得的推理能力。

思维导图

目标读者

本研究报告的目标读者包括人工智能研究人员、自然语言处理领域的从业者、对大型语言模型推理能力感兴趣的学者和工程师,以及希望了解如何通过强化学习提升模型性能的开发者。

作者背景

DeepSeek-AI是一家专注于人工智能研究的机构,致力于推动语言模型和其他人工智能技术的发展。他们的研究团队由众多贡献者组成,涵盖了多个领域的专家,共同推动了DeepSeek系列模型的进步。

历史背景

近年来,大型语言模型(LLMs)经历了快速迭代和发展,逐渐缩小了与通用人工智能(AGI)的差距。后训练已成为完整训练流程的重要组成部分,可提高推理任务的准确性,与社会价值观保持一致,并适应用户偏好,同时相对于预训练而言,所需的计算资源相对较少。OpenAI的o1系列模型率先通过增加思维链推理过程的长度来引入推理时缩放。这种方法在数学、编码和科学推理等各种推理任务中取得了显著改进。

章节摘要

音频

Comming Soon...