当前位置：首页 > 新闻资讯 > 人工智能应用 > DeepSeek-R1技术报告-冷启动数据和多阶段训练流程,大型基础模型的推理模式对提升推理能力至关重要

DeepSeek-R1技术报告-冷启动数据和多阶段训练流程,大型基础模型的推理模式对提升推理能力至关重要

来源：deepseek 编辑：创泽时间：2025/2/11 主题：其他 [加盟]

deepseek 正式发布 DeepSeek-R1，并同步开源模型权重。开源 DeepSeek-R1 推理大模型，与 o1 性能相近。‍‍

开源 DeepSeek-R1-Zero，预训练模型直接 RL，不走 SFT。

开源用 R1 数据蒸馏的 Qwen、Llama 系列小模型，蒸馏模型超过 o1-mini 和 QWQ。

模型开源的同时，技术报告也同步放出：https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

1.引言

近年来，大型语言模型（LLMs）通过后训练技术不断优化，逐渐接近人工通用智能（AGI）。后训练在提升推理任务准确性、符合社会价值观和用户偏好方面表现出色，且计算资源消耗较少。OpenAI 的 o1 系列模型通过增加推理“思考链条”长度，显著提升了数学、编程和科学推理能力，但更有效的推理扩展方法仍是研究热点。

本文次尝试通过纯强化学习（RL）提升语言模型的推理能力，以 DeepSeek-V3-Base 为基础，采用 GRPO 框架训练。经过数千步训练后，DeepSeek-R1-Zero 在推理基准测试中表现出色，例如在 AIME 2024 上的 Pass@1 分数从 15.6% 提升至 86.7%（多数投票后），接近 OpenAI-o1-0912 的水平。但该模型存在可读性差和语言混用的问题。

为解决这些问题，研究团队推出 DeepSeek-R1，引入冷启动数据和多阶段训练流程，终使其性能达到与 OpenAI-o1-1217 相当的水平。此外，研究团队还通过知识蒸馏将 DeepSeek-R1 的能力传递到较小模型，如 Qwen2.532B，发现其效果优于单d使用 RL。开源的蒸馏模型在推理基准测试中创下新纪录，表明大型基础模型的推理模式对提升推理能力至关重要。

2.相关研究

SFT：之前的研究通常依赖 SFT 来增强模型性能。然而，SFT 需要大量标注数据，成本G且耗时。推理时扩展：OpenAI 的 o1 系列模型通过增加 CoT 推理长度来实现推理能力扩展，但测试时扩展的挑战仍然存在。基于过程的奖励模型（PRM）：一些研究采用过程奖励模型引导模型进行推理。然而，这些模型在实际应用中存在局限性。强化学习：强化学习已被用于提升推理能力，但通常与 SFT 数据结合使用，难以探索纯 RL 的潜力。搜索算法：如蒙特卡洛树搜索（MCTS）等算法也被用于增强推理，但效果有限。

3.主要贡献

次验证了纯强化学习在 LLM 中显著增强推理能力的可行性（DeepSeek-R1-Zero），即无需预先的 SFT 数据，仅通过 RL 即可激励模型学会长链推理和反思等能力。

提出了多阶段训练策略（冷启动->RL->SFT->全场景 RL），有效兼顾准确率与可读性，产出 DeepSeek-R1，性能比肩 OpenAI-o1-1217。

展示了知识蒸馏在提升小模型推理能力方面的潜力，并开源多个大小不一的蒸馏模型（1.5B~70B），为社区提供了可在低资源环境中也能获得G推理能力的模型选择。

附件：DeepSeek-R1技术报告-冷启动数据和多阶段训练流程,大型基础模型的推理模式对提升推理能力至关重要