|
|
当前位置:首页 > 人工智能应用 > DeepSeek-R1技术报告-冷启动数据和多阶段训练流程,大型基础模型的推理模式对提升推理能力至关重要 |
DeepSeek-R1技术报告-冷启动数据和多阶段训练流程,大型基础模型的推理模式对提升推理能力至关重要 |
来源:deepseek 时间:2025/2/11 |
deepseek 正式发布 DeepSeek-R1,并同步开源模型权重。 开源 DeepSeek-R1 推理大模型,与 o1 性能相近。 开源 DeepSeek-R1-Zero,预训练模型直接 RL,不走 SFT。 开源用 R1 数据蒸馏的 Qwen、Llama 系列小模型,蒸馏模型超过 o1-mini 和 QWQ。 模型开源的同时,技术报告也同步放出:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf 1.引言 近年来,大型语言模型(LLMs)通过后训练技术不断优化,逐渐接近人工通用智能(AGI)。后训练在提升推理任务准确性、符合社会价值观和用户偏好方面表现出色,且计算资源消耗较少。OpenAI 的 o1 系列模型通过增加推理“思考链条”长度,显著提升了数学、编程和科学推理能力,但更有效的推理扩展方法仍是研究热点。 本文次尝试通过纯强化学习(RL)提升语言模型的推理能力,以 DeepSeek-V3-Base 为基础,采用 GRPO 框架训练。经过数千步训练后,DeepSeek-R1-Zero 在推理基准测试中表现出色,例如在 AIME 2024 上的 Pass@1 分数从 15.6% 提升至 86.7%(多数投票后),接近 OpenAI-o1-0912 的水平。但该模型存在可读性差和语言混用的问题。 为解决这些问题,研究团队推出 DeepSeek-R1,引入冷启动数据和多阶段训练流程,终使其性能达到与 OpenAI-o1-1217 相当的水平。此外,研究团队还通过知识蒸馏将 DeepSeek-R1 的能力传递到较小模型,如 Qwen2.532B,发现其效果优于单d使用 RL。开源的蒸馏模型在推理基准测试中创下新纪录,表明大型基础模型的推理模式对提升推理能力至关重要。 2.相关研究 SFT:之前的研究通常依赖 SFT 来增强模型性能。然而,SFT 需要大量标注数据,成本G且耗时。 推理时扩展:OpenAI 的 o1 系列模型通过增加 CoT 推理长度来实现推理能力扩展,但测试时扩展的挑战仍然存在。 基于过程的奖励模型(PRM):一些研究采用过程奖励模型引导模型进行推理。然而,这些模型在实际应用中存在局限性。 强化学习:强化学习已被用于提升推理能力,但通常与 SFT 数据结合使用,难以探索纯 RL 的潜力。 搜索算法:如蒙特卡洛树搜索(MCTS)等算法也被用于增强推理,但效果有限。 3.主要贡献 次验证了纯强化学习在 LLM 中显著增强推理能力的可行性(DeepSeek-R1-Zero),即无需预先的 SFT 数据,仅通过 RL 即可激励模型学会长链推理和反思等能力。 提出了多阶段训练策略(冷启动->RL->SFT->全场景 RL),有效兼顾准确率与可读性,产出 DeepSeek-R1,性能比肩 OpenAI-o1-1217。 展示了知识蒸馏在提升小模型推理能力方面的潜力,并开源多个大小不一的蒸馏模型(1.5B~70B),为社区提供了可在低资源环境中也能获得G推理能力的模型选择。
![]() |
相关推荐 |
»
DeepSeek 策略三问-AI封锁,有壁垒的应用和消费端龙头,对算力的需求
» DeepSeek-R1 \ Kimi 1.5 及类强推理模型开发解读,长思维链的推理提高模型的可解释性 » DeepSeek与AIGC应用,探讨大模型和AIGC的底层工作机制,突破工具应用的局限 » DeepSeek提示词工程和落地场景,使用DeepSeek的三种方法,提示词让对话质量提升立竿见影 » DeepSeek从入门到精通(清华大学1),采用SPECTRA模型进行任务分解 » DeepSeek赋能职场(清华大学2),从提示语技巧到多场景应用 » DeepSeek+DeepResearch:让科研像聊天一样简单,垂直领域深耕,流程自动化与认知协作 » DeepSeek与AI幻觉,普通用户难以辨别AI内容的真实性,对医疗建议、法律咨询等专业场景的可靠性产生怀疑 » AIGC发展研究3.0版,聚焦于DeepSeek以外的世界 » 周鸿祎清华授课:DeepSeek带来的创业机会 » DeepSeek行业级应用白皮书,精准数据洞察与自动化效能提升方法论 » DeepSeek推进技术平权,赋能AI图像应用深耕细作,输入费用 0.55/百万 token |
![]() ![]() ![]() |
![]() |
|
|
版权所有 © 创泽智能机器人集团股份有限公司 中国运营中心:北京·清华科技园C座五楼 生产研发基地:山东日照太原路71号 电话:4008-128-728 |