首页
产品系列
行业应用
渠道合作
新闻中心
研究院
投资者关系
技术支持
关于创泽
| En
 
  当前位置:首页 > 新闻资讯 > 人工智能应用 > DeepSeek带来的AI变革,在低精度FP8的模式下训练大模型,计算成本降低约1000倍  
 

DeepSeek带来的AI变革,在低精度FP8的模式下训练大模型,计算成本降低约1000倍

来源:华福证券      编辑:创泽      时间:2025/3/6      主题:其他   [加盟]

一、用户量:海外加速出圈,迅速登D下载榜单

1、网页端:重度用户为主,DeepSeek 在 24 年 12 月 26 日推出V3(对标 GPT4o),因其显著的性能,用户迅速开始增长,同时在 1月 20 日发布 R1(对标 GPT-o1)后,进一步出圈。

2、APP 端:大众用户为主,R1 推出后,追平 GPT-o1,迅速出圈海外。根据点点数据,从 DeepSeek 在美国下载排名从 1 月 22 日的 201名,迅速在 1 月 27 日登D名;根据七麦数据,截止 1 月 30 日,DeepSeek 在 168 个位居下载榜名。

二、DeepSeek 偏好激进性创新:架构(MOE+MLA)+精度(FP8)

1、MOE 架构创新:相比过去主流模型的 MOE 专家模型停留在8~16 个,而 DeepSeek 每个 MoE 层包含 1 个共享专家和 256 个路由专家,有助于降低模型推理时激活的参数量。

2、MLA 架构创新:MLA 通过联合压缩键值矩阵为低秩向量,将多个头的键值信息融合,使推理时仅需缓存少量低秩向量,大幅降低 KV 缓存需求,减少内存占用。

3、训练特色:突破大模型训练固定思维(一般模型权重和梯度使用 FP16,优化器参数使用 FP32),敢于尝试在低精度 FP8 的模式下训练大模型,并且该尝试同样出现了较好的效果。

三、DeepSeek 开源对 AI 应用和 AI 终端的影响:产品力竞争时代

DeepSeek 从 V3 到 R1,将进一步推动全行业大模型的提升,更快的追赶 GPT4o 和 GPT-o1;同时成本的下降,有助于 AI 应用和 AI 终端的普及。未来行业竞争将进入“产品能力竞争”,巨头的流量优势将进一步凸显。

四、DeepSeek 对推理成本的影响:用户规模和使用频次

未来推动推理成本增加的核心因素:用户规模和用户使用频次的增加。根据 Grok 创始人,过去 60 年,每10年计算成本降低约1000倍,但人们的购买量增加了 10 万倍,总支出反而增长了 100 倍。




附件:DeepSeek带来的AI变革,在低精度FP8的模式下训练大模型,计算成本降低约1000倍






DeepSeek 引发广泛关注,大模型应用落地将加速,加快大模型在 B 端和 C 端应用场景的落地

DeepSeek大模型的开源,低成本和高性能将大幅降低大模型的获得,部署和应用成本,将加快大模型在 B 端和 C 端应用场景的落地;已应用于端侧、教育、金融、办公、传媒、医疗、智能汽车、企业服务等多个应用场景,应用领域广阔

从DeepSeek看国内AI产业趋势,部署大模型的成本下降,应用有望大规模落地

DeepSeek 降低了单个模型的部署成本,AI 应用有望大规模落地, 推理算力需求将显著增长,相关厂商有望加速进入业绩兑现期,在 AI 应用前沿落地 场景中,全球 AI 应用产业有望迎来共振期

DeepSeek推进技术平权,赋能AI图像应用深耕细作,输入费用 0.55/百万 token

PI 调用层面,DS/OpenAI 的输入费用分别为 0.55/15 美元/百万 token,DS 推理使用成本仅为 OpenAI 的 4%,显著的降低资金门槛,推动了 AI 技术平权

DeepSeek行业级应用白皮书,精准数据洞察与自动化效能提升方法论

精准数据洞察与自动化效能提升方法论;DeepSeek将在企业服务、科研创新等垂直领域深度渗透;DeepSeek将通过开源战略扩大开发者社区规模,并推出模型微调平台和低代码部署工具

周鸿祎清华授课:DeepSeek带来的创业机会

周鸿祎以DeepSeek带来的变革为切入点,深入剖析AI行业发展趋势,并分享了AI技术于创业的应用前景,未来应用将从六大方向实现爆发,企业内部未来一定是多个大模型组合工作

AIGC发展研究3.0版,聚焦于DeepSeek以外的世界

AI生成的回答重复相似,缺乏新意,即使改变提问,无法提供不同的结论;使用更多样的训练数据和算法,提高AI的多样性;优化训练参数, 避免模型陷入局部最优

DeepSeek与AI幻觉,普通用户难以辨别AI内容的真实性,对医疗建议、法律咨询等专业场景的可靠性产生怀疑

模型难以处理训练集外的复杂场景,模型过度依赖参数化记忆,普通用户难以辨别AI内容的真实性,可能对医疗建议、法律咨询等专业场景的可 靠性产生长期怀疑

DeepSeek+DeepResearch:让科研像聊天一样简单,垂直领域深耕,流程自动化与认知协作

DeepSeek技术突破与应用场景,冷启动数据与多阶段优化,本地部署与端云协同,垂直领域深耕(医疗、金融、教育);智能协作与自动化转型,消费决策与商业研究赋能

DeepSeek赋能职场(清华大学2),从提示语技巧到多场景应用

你想要生成什么样的文案? 这样的文案具备哪些特征? 你要针对什么生成类似文案? 篇幅、用词、结构优化;批量生成新媒体文案

DeepSeek从入门到精通(清华大学1),采用SPECTRA模型进行任务分解

提示语(Prompt)是用户输入给AI系统的指令或信息,包括指令、上下文和期望,为了更有效地进行任务分解,可以采用SPECTRA模型,能够扫描读取各类文件及图片中的文字内容

DeepSeek提示词工程和落地场景,使用DeepSeek的三种方法,提示词让对话质量提升立竿见影

讲座为DeepSeek原理和应用系列研讨的讲座之一,聚焦提示词工程与产业实践两大核心模块,延续前序对AIGC底层逻辑的探讨,系统拆解如何通过自然语言交互充分释放DeepSeek潜能

DeepSeek与AIGC应用,探讨大模型和AIGC的底层工作机制,突破工具应用的局限

进一步探讨大模型和AIGC的底层工作机制,旨在帮助读者突破工具应用的局限,理解DeepSeek和AIGC的深层次价值。最后,介绍如何科学选择与高效使用 AI 工具,为大家提供更具深度与实用性的应用场景的指导,给听众带来更落地的AI应用价值
 
资料获取
新闻资讯
== 资讯 ==
» 四足机器人场景应用发展蓝皮书-市场约70
» 迎宾机器人的位置传感器:电位器、光电编码
» 人形机器人上岗餐饮酒店服务场景(如迎宾、
» 智能清洁机器人在商业综合体清洁场景,。模
» 中国人工智能系列白皮书—-具身智能(20
» 腰部外骨骼机器人,20kg的攀登与行走助
» 室内安防巡检机器人的数据中心巡检场景:多
» 光伏机器人清洁太阳能板的七大优点:独有性
» 2025上海智能机器人百大场景案例集-重
» 具身大模型:人形机器人智慧内核,主流框架
» 具身智能数据行业研究白皮书2026-数据
» 2025上海市“AI+制造”发展白皮书,
» Hermes橙皮书《Hermes Age
» 清华大学《OpenClaw在企业办公中的
» 基于多机器人协作的关键问题:有限带宽和地
 
== 机器人推荐 ==
 
迎宾讲解服务机器人

服务机器人(迎宾、讲解、导诊...)

智能消毒机器人

智能消毒机器人

机器人底盘

机器人底盘

 

商用机器人  Disinfection Robot   展厅机器人  智能垃圾站  轮式机器人底盘  迎宾机器人  移动机器人底盘  讲解机器人  紫外线消毒机器人  大屏机器人  雾化消毒机器人  服务机器人底盘  智能送餐机器人  雾化消毒机  机器人OEM代工厂  消毒机器人排名  智能配送机器人  图书馆机器人  导引机器人  移动消毒机器人  导诊机器人  迎宾接待机器人  前台机器人  导览机器人  酒店送物机器人  云迹科技润机器人  云迹酒店机器人  智能导诊机器人 
版权所有 © 创泽智能机器人集团股份有限公司     中国运营中心:北京·清华科技园九号楼5层     中国生产中心:山东日照太原路71号
销售1:4006-935-088    销售2:4006-937-088   客服电话: 4008-128-728