|
当前位置:首页 > ai智能 > MoE与思维链助力大模型技术路线破局:MoE模型提升效果显著,拥有人类“慢思考”的特质 |
MoE与思维链助力大模型技术路线破局:MoE模型提升效果显著,拥有人类“慢思考”的特质 |
来源:国泰君安证券 时间:2024/11/6 |
巨额算力投入成为技术和效益优化的瓶颈,技术路径破局迫在眉 睫。从效益端看,基于 Transformer 架构的模型在训练计算量(training FLOPs)达到一定量级时,模型性能才出现向上的“拐点”,因此在 大模型训练任务中,算力成为必须的基础性资源。但随着模型越来 越大,算力成本越来越高,成本飙升源于模型复杂度和数据量攀升 对计算资源的需求。Anthropic 首席执行官表示,三年内 AI 模型的 训练成本将上升到 100 亿美元甚至 1000 亿美元。巨额的大模型训 练投入一定程度减缓了技术进步和效益提升,因此技术路径破局尤 为关键。当前 MoE 以及 OpenAI o1 的“思维链”是重要探索实践。 MoE 框架是对 Transformer 架构的优化,关键在于路由策略及微 调。其能在不给训练和推理阶段引入过大计算需求的前提下大幅提 升模型能力。在基于 Transformer 的大型语言模型(LLM)中,每个 混合专家(MoE)层的组成形式通常是𝑁个“专家网络”搭配一个“门 控网络”G。门控函数(也被称路由函数)是所有 MoE 架构的基础 组件,作用是协调使用专家计算以及组合各专家的输出。根据对每 个输入的处理方法,该门控可分为三种类型:稀疏式、密集式和 soft 式。其中稀疏式门控机制是激活部分专家,而密集式是激活所有专 家,soft 式则包括完全可微方法,包括输入 token 融合和专家融合。 MoE 在 NLP、CV、语音识别以及机器人等领域表现出色,且在更 高性能的大模型推理芯片 LPU 加持下,MoE模型提升效果显著。 OpenAI o1 基于“思维链”的创新推理模式,学会人类“慢思考”, 专业领域的效果突出。OpenAI o1 相比之前的 AI 大模型最跨越性的 一步在于拥有人类“慢思考”的特质:系统性、逻辑性、批判性、 意识性。在响应用户提出的难题之前,OpenAI o1 会产生一个缜密 的内部思维链,进行长时间的思考,完善思考过程、意识逻辑错误、 优化使用策略、推理正确答案。这种深度思考能力在处理数学、编 程、代码、优化等高难度问题时发挥重要作用,能够进行博士级别 的科学问答,成为真正的通用推理。推理侧的应用模式创新有望在 更为专业的领域创造价值应用,从通用的偏娱乐领域逐步过渡到偏 严肃的专业领域场景,AI 大模型的真正实践价值有望进一步释放, 因此 o1 模型提供的新应用范式和能力维度在大模型技术路线演绎 中,具有里程碑意义。
|
相关推荐 |
»
2024AIGC创新应用洞察报告:市场规模达到360.6亿美金,增长率达到46.5%
» 科研智能(AI4R&D) 人工智能驱动的研发新范式:描绘生态全景,为制定产业政策、指导项目布局提供参考 » 2024年AI Agent实施的明路应用实践报告-三个核心能力进行任务规划和问题拆解,场景的智能化解决方案 » 2024年中国生成式AI行业月度观察报告技术深化领域融合持续增长的AI市场:文心一言月度UV突破2000万,移动端豆包MAU已达2700万 » 端侧智能行业-人工智能重要应用产品落地爆发在即,落地场景包括 AI PC、AI 手机、AI 可穿戴设备、AI 智能家居、AI 智能汽车、AI 工业设备 » 2024AI教育硬件全景报告:市场规模将达到165亿元,2028有望接近900亿 » 中国文娱行业人工智能行业应用发展图谱:市场规模将达到1.21万亿,侧重IP版权交易与多元化开发 » 在线教育龙头多邻国启示录商业模式珠玉在前AI技术助力突破国内在线教育星辰大海,市场规模已达到1665.5亿美元 » 2024全球智能家居市场深度研究报告:WiFi-5升级到WiFi-7,智能家居市场保持两位数增长 » 华为2024一城一云一模型发展研究报告:深度融合,智慧城市的新架构和大模型等 » 2024年中国人工智能药物发现与开发行业概览-从“制药”走向“智药”:成功率可从12%提高到约14% » 2024年大模型+知识库厂商全景报告:发展历程、大模型与知识库结合的趋势,明确了报告的使用权限 » 智能网联汽车标准法规月报2024:联汽车管理规范、车载端信息安全技术要求、车辆在环仿真测试平台等 » 人工智能开启汽车产业智能化新时代,2024AIEV产业研究:者提供更加安全、便捷、舒适的驾乘体;带来新的增长动力和市场机遇 » 生成式人工智能应用现状前沿洞察2024:成式AI的发展现状以及未来趋势,提出切实可行的建议 » 中国人工智能教育蓝皮书:教育的定义,市场现状,发展趋势以及主要企业的动态 |
|
|
|
版权所有 © 创泽智能机器人集团股份有限公司 中国运营中心:北京·清华科技园C座五楼 生产研发基地:山东日照太原路71号 电话:4008-128-728 |