当前位置:首页 > 人工智能应用 > DeepSeek-R1技术报告-冷启动数据和多阶段训练流程,大型基础模型的推理模式对提升推理能力至关重要
 

DeepSeek-R1技术报告-冷启动数据和多阶段训练流程,大型基础模型的推理模式对提升推理能力至关重要

来源:deepseek    时间:2025/2/11

deepseek 正式发布 DeepSeek-R1,并同步开源模型权重。 开源 DeepSeek-R1 推理大模型,与 o1 性能相近。‍‍

开源 DeepSeek-R1-Zero,预训练模型直接 RL,不走 SFT。

开源用 R1 数据蒸馏的 Qwen、Llama 系列小模型,蒸馏模型超过 o1-mini 和 QWQ。

模型开源的同时,技术报告也同步放出:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

1.引言

近年来,大型语言模型(LLMs)通过后训练技术不断优化,逐渐接近人工通用智能(AGI)。后训练在提升推理任务准确性、符合社会价值观和用户偏好方面表现出色,且计算资源消耗较少。OpenAI 的 o1 系列模型通过增加推理“思考链条”长度,显著提升了数学、编程和科学推理能力,但更有效的推理扩展方法仍是研究热点。

本文次尝试通过纯强化学习(RL)提升语言模型的推理能力,以 DeepSeek-V3-Base 为基础,采用 GRPO 框架训练。经过数千步训练后,DeepSeek-R1-Zero 在推理基准测试中表现出色,例如在 AIME 2024 上的 Pass@1 分数从 15.6% 提升至 86.7%(多数投票后),接近 OpenAI-o1-0912 的水平。但该模型存在可读性差和语言混用的问题。

为解决这些问题,研究团队推出 DeepSeek-R1,引入冷启动数据和多阶段训练流程,终使其性能达到与 OpenAI-o1-1217 相当的水平。此外,研究团队还通过知识蒸馏将 DeepSeek-R1 的能力传递到较小模型,如 Qwen2.532B,发现其效果优于单d使用 RL。开源的蒸馏模型在推理基准测试中创下新纪录,表明大型基础模型的推理模式对提升推理能力至关重要。

2.相关研究

SFT:之前的研究通常依赖 SFT 来增强模型性能。然而,SFT 需要大量标注数据,成本G且耗时。 推理时扩展:OpenAI 的 o1 系列模型通过增加 CoT 推理长度来实现推理能力扩展,但测试时扩展的挑战仍然存在。 基于过程的奖励模型(PRM):一些研究采用过程奖励模型引导模型进行推理。然而,这些模型在实际应用中存在局限性。 强化学习:强化学习已被用于提升推理能力,但通常与 SFT 数据结合使用,难以探索纯 RL 的潜力。 搜索算法:如蒙特卡洛树搜索(MCTS)等算法也被用于增强推理,但效果有限。

3.主要贡献

次验证了纯强化学习在 LLM 中显著增强推理能力的可行性(DeepSeek-R1-Zero),即无需预先的 SFT 数据,仅通过 RL 即可激励模型学会长链推理和反思等能力。

提出了多阶段训练策略(冷启动->RL->SFT->全场景 RL),有效兼顾准确率与可读性,产出 DeepSeek-R1,性能比肩 OpenAI-o1-1217。

展示了知识蒸馏在提升小模型推理能力方面的潜力,并开源多个大小不一的蒸馏模型(1.5B~70B),为社区提供了可在低资源环境中也能获得G推理能力的模型选择。



附件:DeepSeek-R1技术报告-冷启动数据和多阶段训练流程,大型基础模型的推理模式对提升推理能力至关重要



 
 
 
相关推荐
» DeepSeek 策略三问-AI封锁,有壁垒的应用和消费端龙头,对算力的需求
» DeepSeek-R1 \ Kimi 1.5 及类强推理模型开发解读,长思维链的推理提高模型的可解释性
» DeepSeek与AIGC应用,探讨大模型和AIGC的底层工作机制,突破工具应用的局限
» DeepSeek提示词工程和落地场景,使用DeepSeek的三种方法,提示词让对话质量提升立竿见影
» DeepSeek从入门到精通(清华大学1),采用SPECTRA模型进行任务分解
» DeepSeek赋能职场(清华大学2),从提示语技巧到多场景应用
» DeepSeek+DeepResearch:让科研像聊天一样简单,垂直领域深耕,流程自动化与认知协作
» DeepSeek与AI幻觉,普通用户难以辨别AI内容的真实性,对医疗建议、法律咨询等专业场景的可靠性产生怀疑
» AIGC发展研究3.0版,聚焦于DeepSeek以外的世界
» 周鸿祎清华授课:DeepSeek带来的创业机会
» DeepSeek行业级应用白皮书,精准数据洞察与自动化效能提升方法论
» DeepSeek推进技术平权,赋能AI图像应用深耕细作,输入费用 0.55/百万 token
 
 
 
  » 联系我们
X 关闭  
 
网站首页
关于创泽 公司简介   资质荣誉   企业文化
新闻资讯 公司新闻 [机器人新闻 董事长新闻 比赛与荣誉类]  行业动态
解决方案 商用服务机器人   陪护机器人   安防机器人   智能医疗机器人  党建机器人
服务支持 常见问题   下载
人才招聘 招聘信息   精彩瞬间
党群建设 党建活动   工会活动   其他活动
商务合作 招募支持   报名提交
联系我们 售后服务   留言咨询
   
   
 
联系我们  
北京·清华科技园C座五楼
山东省日照市开发区太原路71号

扫码关注微信公众号
版权所有 © 创泽智能机器人集团股份有限公司           中国运营中心:北京·清华科技园C座五楼       生产研发基地:山东日照太原路71号       电话:4008-128-728