当前位置：首页 > 新闻资讯 > 人工智能应用 > deepseek大模型生态报告,AI供应链格局将被重塑,基础模型层商品化,为应用开发者带来新机遇

deepseek大模型生态报告,AI供应链格局将被重塑,基础模型层商品化,为应用开发者带来新机遇

来源：赛迪智库电子信息研究所编辑：创泽时间：2025/3/6 主题：其他 [加盟]

DeepSeek 对大的启示，还是“开放”二字。无论是心态上还是方法上，都要毫不动摇地坚持开放，继续开放。 DeepSeek 的胜利，就是开源打败闭源。OpenAI 以前是开源的，后来变成闭源的，这次 DeepSeek 爆火之后，OpenAI 的奥特曼也出来说话，承认闭源是一种战略错误。

本周围绕 DeepSeek 的热议，让许多人清晰地看到了几个一直存在的重要趋势：美国在 GenAIL域的L先地位正在被迎头赶上，AI 供应链格局将被重塑；开放权重模型正在推动基础模型层商品化，为应用开发者带来新机遇；扩大规模并非通往 AI 进步的途径。尽管算力备受追捧，但算法创新正在快速降低训练成本。

“DeepSeek 可能会开辟一个全新的由引L的技术生态系统，这会让的开发者因 DeepSeek 开发的低成本、更G效的人工智能产品而受益。”一位 TMT L域投资人如是说，“这种竞争从某种程度来说也将打破美国科技巨头的市场主导地位。

大模型训练降低成本主要靠两招：压缩、并行和提升硬件使用效率。DeepSeek-V3 这次所用的方法基本上就是猛挥这三板斧。

1. 压缩：从结构到量化

压缩很容易理解，就是把大的东西压缩成小的。对于模型训练来讲，压缩之后，运算单元（GPU 和 CPU）需要进行的运算数据量就会减少，运算速率必然会提升。另一个重要影响是，内存占用和缓存会减少，这样训练同样大小的模型所需要的硬件规模也可以大幅减少。

2. 并行：对硬件的J限使用

要实现更快的训练速度，有效的方法就是增加并行计算的规模，让更多的计算单元同时处理不同的数据或任务。而在并行中，需要解决的问题就是尽可能的有效利用计算资源，让它们都G负载的工作。

DeepSeek-V3 这回真的可以说是在训练工程上无所不用其J。总结下来，重要的包括以下这么几个方面。

DeepSeek-V3 的横空出世，用一组的数据出色诠释了没有 GPU Poor，只有卷得不够多。当 o1、Claude、Gemini 和 Llama 3 等模型还在为数亿美元的训练成本苦恼时， DeepSeek-V3 用 557.6 万美元的预算，在 2048 个 H800 GPU集群上仅花费 3.7 天/万亿 tokens 的训练时间，就达到了足以与它们比肩的性能。这意味着每万亿 tokens 仅需 180K 个 H800 GPU 小时，总计 278 万 GPU 小时的训练成本。而 Llama 3.1 的训练使用了 16,384 块 Nvidia H100 GPU，总计 2100 多万 GPU 小时，翻了十倍。通过 671B 的总参数量，在每个 token 激活 37B 参数的准确控制下，DeepSeek-V3 用 14.8 万亿G质量多样化 token，构建出了一个能够超越所有开源模型，直逼 GPT-4 和 Claude-3.5 的 AI 巨人。

附件：deepseek大模型生态报告,AI供应链格局将被重塑,基础模型层商品化,为应用开发者带来新机遇