当前位置:首页 > ai智能 > MoE与思维链助力大模型技术路线破局:MoE模型提升效果显著,拥有人类“慢思考”的特质
 

MoE与思维链助力大模型技术路线破局:MoE模型提升效果显著,拥有人类“慢思考”的特质

来源:国泰君安证券    时间:2024/11/6

巨额算力投入成为技术和效益优化的瓶颈,技术路径破局迫在眉 睫。从效益端看,基于 Transformer 架构的模型在训练计算量(training FLOPs)达到一定量J时,模型性能才出现向上的“拐点”,因此在 大模型训练任务中,算力成为需要的基础性资源。但随着模型越来 越大,算力成本越来越G,成本飙升源于模型复杂度和数据量攀升 对计算资源的需求。Anthropic 席执行官表示,三年内 AI 模型的 训练成本将上升到 100 亿美元甚至 1000 亿美元。巨额的大模型训 练投入一定程度减缓了技术进步和效益提升,因此技术路径破局尤 为关键。当前 MoE 以及 OpenAI o1 的“思维链”是重要探索实践。

MoE 框架是对 Transformer 架构的优化,关键在于路由策略及微 调。其能在不给训练和推理阶段引入过大计算需求的前提下大幅提 升模型能力。在基于 Transformer 的大型语言模型(LLM)中,每个 混合专家(MoE)层的组成形式通常是𝑁个“专家网络”搭配一个“门 控网络”G。门控函数(也被称路由函数)是所有 MoE 架构的基础 组件,作用是协调使用专家计算以及组合各专家的输出。根据对每 个输入的处理方法,该门控可分为三种类型:稀疏式、密集式和 soft 式。其中稀疏式门控机制是激活部分专家,而密集式是激活所有专 家,soft 式则包括完全可微方法,包括输入 token 融合和专家融合。

MoE 在 NLP、CV、语音识别以及机器人等L域表现出色,且在更 G性能的大模型推理芯片 LPU 加持下,MoE模型提升效果显著。

OpenAI o1 基于“思维链”的创新推理模式,学会人类“慢思考”, 专业L域的效果突出。OpenAI o1 相比之前的 AI 大模型跨越性的 一步在于拥有人类“慢思考”的特质:系统性、逻辑性、批判性、 意识性。在响应用户提出的难题之前,OpenAI o1 会产生一个缜密 的内部思维链,进行长时间的思考,完善思考过程、意识逻辑错误、 优化使用策略、推理正确答案。这种深度思考能力在处理数学、编 程、代码、优化等G难度问题时发挥重要作用,能够进行博士J别 的科学问答,成为真正的通用推理。推理侧的应用模式创新有望在 更为专业的L域创造价值应用,从通用的偏娱乐L域逐步过渡到偏 严肃的专业L域场景,AI 大模型的真正实践价值有望进一步释放, 因此 o1 模型提供的新应用范式和能力维度在大模型技术路线演绎 中,具有里程碑意义。




附件:MoE与思维链助力大模型技术路线破局:MoE模型提升效果显著,拥有人类“慢思考”的特质



 
 
 
相关推荐
» 2024AIGC创新应用洞察报告:市场规模达到360.6亿美金,增长率达到46.5%
» 科研智能(AI4R&D) 人工智能驱动的研发新范式:描绘生态全景,为制定产业政策、指导项目布局提供参考
» 2024年AI Agent实施的明路应用实践报告-三个核心能力进行任务规划和问题拆解,场景的智能化解决方案
» 2024年中国生成式AI行业月度观察报告技术深化领域融合持续增长的AI市场:文心一言月度UV突破2000万,移动端豆包MAU已达2700万
» 端侧智能行业-人工智能重要应用产品落地爆发在即,落地场景包括 AI PC、AI 手机、AI 可穿戴设备、AI 智能家居、AI 智能汽车、AI 工业设备
» 2024AI教育硬件全景报告:市场规模将达到165亿元,2028有望接近900亿
» 中国AI+营销趋势洞察与企业落地建议:成本有效的实现规模化扩张,提升用户体验和满意度
» 教育大模型:AI赋能智能教育,塑造未来学习新生态,分为通用大模型教育应用和教育专有大模型
» 超拟人大模型的情绪价值体验:八大安全场景对大模型进行针对性升级
» 2024年AI大模型技术变迁情况回溯:技术演进方向,推动机器人场景应用落地,AI应用商业化
» 新一代智能终端发展研究2025,1+8技术体系,终端具备智能感知与决策能力
» 智能体应用现状挑战及建议2025,智能体的技术特征、发展历程、应用场景和产业生态
 
 
 
  » 联系我们
X 关闭  
 
网站首页
关于创泽 公司简介   资质荣誉   企业文化
新闻资讯 公司新闻 [机器人新闻 董事长新闻 比赛与荣誉类]  行业动态
解决方案 商用服务机器人   陪护机器人   安防机器人   智能医疗机器人  党建机器人
服务支持 常见问题   下载
人才招聘 招聘信息   精彩瞬间
党群建设 党建活动   工会活动   其他活动
商务合作 招募支持   报名提交
联系我们 售后服务   留言咨询
   
   
 
联系我们  
北京·清华科技园C座五楼
山东省日照市开发区太原路71号

扫码关注微信公众号
版权所有 © 创泽智能机器人集团股份有限公司           中国运营中心:北京·清华科技园C座五楼       生产研发基地:山东日照太原路71号       电话:4008-128-728