首页
产品系列
行业应用
渠道合作
新闻中心
研究院
投资者关系
技术支持
关于创泽
| En
 
  当前位置:首页 > 新闻资讯 > 人工智能应用 > DeepSeek-R1技术报告-冷启动数据和多阶段训练流程,大型基础模型的推理模式对提升推理能力至关重要  
 

DeepSeek-R1技术报告-冷启动数据和多阶段训练流程,大型基础模型的推理模式对提升推理能力至关重要

来源:deepseek      编辑:创泽      时间:2025/2/11      主题:其他   [加盟]

deepseek 正式发布 DeepSeek-R1,并同步开源模型权重。 开源 DeepSeek-R1 推理大模型,与 o1 性能相近。‍‍

开源 DeepSeek-R1-Zero,预训练模型直接 RL,不走 SFT。

开源用 R1 数据蒸馏的 Qwen、Llama 系列小模型,蒸馏模型超过 o1-mini 和 QWQ。

模型开源的同时,技术报告也同步放出:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

1.引言

近年来,大型语言模型(LLMs)通过后训练技术不断优化,逐渐接近人工通用智能(AGI)。后训练在提升推理任务准确性、符合社会价值观和用户偏好方面表现出色,且计算资源消耗较少。OpenAI 的 o1 系列模型通过增加推理“思考链条”长度,显著提升了数学、编程和科学推理能力,但更有效的推理扩展方法仍是研究热点。

本文次尝试通过纯强化学习(RL)提升语言模型的推理能力,以 DeepSeek-V3-Base 为基础,采用 GRPO 框架训练。经过数千步训练后,DeepSeek-R1-Zero 在推理基准测试中表现出色,例如在 AIME 2024 上的 Pass@1 分数从 15.6% 提升至 86.7%(多数投票后),接近 OpenAI-o1-0912 的水平。但该模型存在可读性差和语言混用的问题。

为解决这些问题,研究团队推出 DeepSeek-R1,引入冷启动数据和多阶段训练流程,终使其性能达到与 OpenAI-o1-1217 相当的水平。此外,研究团队还通过知识蒸馏将 DeepSeek-R1 的能力传递到较小模型,如 Qwen2.532B,发现其效果优于单d使用 RL。开源的蒸馏模型在推理基准测试中创下新纪录,表明大型基础模型的推理模式对提升推理能力至关重要。

2.相关研究

SFT:之前的研究通常依赖 SFT 来增强模型性能。然而,SFT 需要大量标注数据,成本G且耗时。 推理时扩展:OpenAI 的 o1 系列模型通过增加 CoT 推理长度来实现推理能力扩展,但测试时扩展的挑战仍然存在。 基于过程的奖励模型(PRM):一些研究采用过程奖励模型引导模型进行推理。然而,这些模型在实际应用中存在局限性。 强化学习:强化学习已被用于提升推理能力,但通常与 SFT 数据结合使用,难以探索纯 RL 的潜力。 搜索算法:如蒙特卡洛树搜索(MCTS)等算法也被用于增强推理,但效果有限。

3.主要贡献

次验证了纯强化学习在 LLM 中显著增强推理能力的可行性(DeepSeek-R1-Zero),即无需预先的 SFT 数据,仅通过 RL 即可激励模型学会长链推理和反思等能力。

提出了多阶段训练策略(冷启动->RL->SFT->全场景 RL),有效兼顾准确率与可读性,产出 DeepSeek-R1,性能比肩 OpenAI-o1-1217。

展示了知识蒸馏在提升小模型推理能力方面的潜力,并开源多个大小不一的蒸馏模型(1.5B~70B),为社区提供了可在低资源环境中也能获得G推理能力的模型选择。



附件:DeepSeek-R1技术报告-冷启动数据和多阶段训练流程,大型基础模型的推理模式对提升推理能力至关重要






DeepSeek最受益方向是云产业链,部署成本从高端GPU扩展至消费级GPU

轻量化架构配合量化剪枝技术,使Al推理首次真正突破硬件限制, 部署成本从高端GPU扩展至消费级GPU;云厂商是DeepSeek 能力的“放大器”:充足的算力“弹药”与用户覆盖能力

DeepSeek从入门到精通-提出了AI使用层次与突破路径,快思慢想的概念,提供了具体的提示语设计建议

清华大学团队介绍了DeepSeek的功能、应用场景和使用方法,并提供了关于如何高效利用AI模型的深入指导;提出了多种提示语策略,提供了具体的提示语设计建议

AI陪伴互动软件硬件全景解析-可交互内容市场规模将达到500亿,AI伴侣百亿级别的市场

可交互内容平台的市场规模将达到500亿元人民币;AI伴侣有望打开百亿级别的市场空间;全球互联网社区的市场规模将达到1.5万亿美元;机器人的市场规模将达到2000亿美元

中国AI搜索行业发展报告-AI搜索能够理解用户的意图,提供更加个性化的搜索体验

未来的AI搜索将更加智能,能够实现多轮对话交互;AI搜索将渗透到更多行业;AI搜索将采用更先进的加密技术,确保用户数据的安全;从技术突破到应用场景拓展

人工智能典型应用(人工智能+治理)-拓展了非现场执法的新模式

新碶街道创新性地引入了“无人机+AI”系统,实现了对城市综合执法的智能升级,实现全天候无人值守,全流程自动作业,拓展了非现场执法的新模式,提升了执法效率与精度

人工智能典型应用(人工智能+海洋)-优化船舶航线规划,加快货物装卸速度

利用机器学习算法进行设备健康监测与故障预测,保障 航行安全并降低维护成本;实现了从传统人工操作向自动化作业的重大转变,支撑起“千万箱级”的码头作业能力

人工智能典型应用(人工智能+交通)-自动识别八大类 28 种公路病害

实现了对交通流量的实时监控与调控,优化了交通信号控制,提升了道路通行效率与安全性,减少了拥堵和事故风险,可以自动识别八大类 28 种公路病害,准确率提升至 90%以上

人工智能典型应用(人工智能+消费)-定制个性化的服务体验

智能客服机器 人可以即时响应客户咨询,解决常见问题;利用大数据分析预测客户需求,定制个性化的服务体验,增强 了用户体验,使得服务更加便捷,精准且高效

人工智能典型应用(人工智能+教育)-AI自动批改和监测

AI 能够分析学生的学习行为和进度,提供定制化的学习内容和即时反馈,虚拟助教和聊天机器人可以解答学生的疑问,实现了 AI 自动批改和监测,人工智能自动评分试点任务

人工智能典型应用(人工智能+医疗)-协助诊断80.81万份病历

累计活跃医生工作站 2720 个,协助诊断 80.81 万份门诊电子病历,辅助决策 374.02 万次,辅助质控 276.47 万次,提供医学检索 7.1 万次,病历规范率提升到 91%以上

人工智能典型应用(人工智能+制造)-实现32%的碱浓度精准预测及质量优化

通过历史生产数据的分析学习,实时生产数据的采集,模拟数据的契合以及专业知识和经验的支撑,实现了 32%的碱浓度精准预测及质量优化,研发周期缩短 80%以上

DeepSeek开启AI算法变革元年-二十天DAU达到了2161万,发布了Janus-Pro多模态模型

DeepSeek只用了短短二十天,DAU(日活跃用户)就达到了2161万,开源发布了Janus-Pro多模态模型,实现性价比更高的模型推理能力,推动了AI技术的普惠化
 
资料获取
新闻资讯
== 资讯 ==
» 四足机器人场景应用发展蓝皮书-市场约70
» 迎宾机器人的位置传感器:电位器、光电编码
» 人形机器人上岗餐饮酒店服务场景(如迎宾、
» 智能清洁机器人在商业综合体清洁场景,。模
» 中国人工智能系列白皮书—-具身智能(20
» 腰部外骨骼机器人,20kg的攀登与行走助
» 室内安防巡检机器人的数据中心巡检场景:多
» 光伏机器人清洁太阳能板的七大优点:独有性
» 2025上海智能机器人百大场景案例集-重
» 具身大模型:人形机器人智慧内核,主流框架
» 具身智能数据行业研究白皮书2026-数据
» 2025上海市“AI+制造”发展白皮书,
» Hermes橙皮书《Hermes Age
» 清华大学《OpenClaw在企业办公中的
» 基于多机器人协作的关键问题:有限带宽和地
 
== 机器人推荐 ==
 
迎宾讲解服务机器人

服务机器人(迎宾、讲解、导诊...)

智能消毒机器人

智能消毒机器人

机器人底盘

机器人底盘

 

商用机器人  Disinfection Robot   展厅机器人  智能垃圾站  轮式机器人底盘  迎宾机器人  移动机器人底盘  讲解机器人  紫外线消毒机器人  大屏机器人  雾化消毒机器人  服务机器人底盘  智能送餐机器人  雾化消毒机  机器人OEM代工厂  消毒机器人排名  智能配送机器人  图书馆机器人  导引机器人  移动消毒机器人  导诊机器人  迎宾接待机器人  前台机器人  导览机器人  酒店送物机器人  云迹科技润机器人  云迹酒店机器人  智能导诊机器人 
版权所有 © 创泽智能机器人集团股份有限公司     中国运营中心:北京·清华科技园九号楼5层     中国生产中心:山东日照太原路71号
销售1:4006-935-088    销售2:4006-937-088   客服电话: 4008-128-728