|
|
当前位置:首页 > 人工智能应用 > deepseek大模型生态报告,AI供应链格局将被重塑,基础模型层商品化,为应用开发者带来新机遇 |
deepseek大模型生态报告,AI供应链格局将被重塑,基础模型层商品化,为应用开发者带来新机遇 |
来源:赛迪智库电子信息研究所 时间:2025/3/6 |
DeepSeek 对大的启示,还是“开放”二字。无论是 心态上还是方法上,都要毫不动摇地坚持开放,继续开放。 DeepSeek 的胜利,就是开源打败闭源。OpenAI 以前是开源 的,后来变成闭源的,这次 DeepSeek 爆火之后,OpenAI 的 奥特曼也出来说话,承认闭源是一种战略错误。 本周围绕 DeepSeek 的热议,让许多人清 晰地看到了几个一直存在的重要趋势:美国在 GenAIL域的L先地位正在被迎头赶上,AI 供应链格局将被重塑;开放权重模型正在推动基础模型层商品化,为应用开发者带来新机遇 ;扩大规模并非通往 AI 进步的途径。尽管算力 备受追捧,但算法创新正在快速降低训练成本。 “DeepSeek 可能会开辟一个全新的由引L的技术 生态系统,这会让的开发者因 DeepSeek 开发的低成本、 更G效的人工智能产品而受益。”一位 TMT L域投资人如是 说,“这种竞争从某种程度来说也将打破美国科技巨头的市 场主导地位。 大模型训练降低成本主要靠两招:压缩、并行和提升硬 件使用效率。DeepSeek-V3 这次所用的方法基本上就是猛挥 这三板斧。 1. 压缩:从结构到量化 压缩很容易理解,就是把大的东西压缩成小的。对于模 型训练来讲,压缩之后,运算单元(GPU 和 CPU)需要进行 的运算数据量就会减少,运算速率必然会提升。另一个重要 影响是,内存占用和缓存会减少,这样训练同样大小的模型 所需要的硬件规模也可以大幅减少。 2. 并行:对硬件的J限使用 要实现更快的训练速度,有效的方法就是增加并行计 算的规模,让更多的计算单元同时处理不同的数据或任务。 而在并行中,需要解决的问题就是尽可能的有效利用计算资 源,让它们都G负载的工作。 DeepSeek-V3 这回真的可以说是在训练工程上无所不用 其J。总结下来,重要的包括以下这么几个方面。 DeepSeek-V3 的横空出世,用一组的数据出色诠释了没 有 GPU Poor,只有卷得不够多。当 o1、Claude、Gemini 和 Llama 3 等模型还在为数亿美元的训练成本苦恼时, DeepSeek-V3 用 557.6 万美元的预算,在 2048 个 H800 GPU集群上仅花费 3.7 天/万亿 tokens 的训练时间,就达到了足以 与它们比肩的性能。这意味着每万亿 tokens 仅需 180K 个 H800 GPU 小时,总计 278 万 GPU 小时的训练成本。而 Llama 3.1 的训练使用了 16,384 块 Nvidia H100 GPU,总计 2100 多 万 GPU 小时,翻了十倍。通过 671B 的总参数量,在每个 token 激活 37B 参数的准确控制下,DeepSeek-V3 用 14.8 万 亿G质量多样化 token,构建出了一个能够超越所有开源模 型,直逼 GPT-4 和 Claude-3.5 的 AI 巨人。
![]() |
相关推荐 |
»
DeepSeek私有化部署和一体机,低成本部署,Unsloth R1动态量化部署的三种实现路径
» DeepSeek原理与落地应用,基于上下文预测下一个 token,激发深度思考等,提升对话质量 » DeepSeek:智能时代的全面到来和人机协作的新常态,可能带来4天工作制等变革 » DeepSeek大模型及其企业应用实践(企业篇),在客户服务,个性化推荐等多场景有应用 » DeepSeek大模型概念,技术与应用实践,使用DeepSeek处理文档,图片类AIGC的应用包括图像生成、图像修复、图像增强和图像识别等方面 » Deepseek1小时快速入门教程(适合零基础小白),涵盖其功能特性、使用方法、技巧策略、问题应对及资源拓展等内容 » DeepSeek 7天指导手册(从入门到精通),涵盖基础操作、多场景应用、提升学习能力等内容 » DeepSeek中小学生使用手册,提问的十大原则,个性化阅读推荐 » 详解DeepSeek:模型训练,优化及数据处理的技术精髓,采用MLA多层注意力架构,推理速度提升3倍 » DeepSeek从入门到精通干货 7大场景+50大案例+全套提示词,在日常生活、家庭教育、职场工作、创业经营、自媒体创作等多个场景中发挥重要作用 » 2025DeepSeek爆火详细报告,低价与免费策略,技术创新,智能体爆发 » 我们该如何看待DeepSeek_what_how_why and next,AI变为全民生产力,推动社会生产效率变革 |
![]() ![]() ![]() |
![]() |
|
|
版权所有 © 创泽智能机器人集团股份有限公司 中国运营中心:北京·清华科技园C座五楼 生产研发基地:山东日照太原路71号 电话:4008-128-728 |