当前位置:首页 > 行业动态 > 语言大模型能力提升主要体现为四方面:上下文窗口,知识密度增强和强化学习等
 

语言大模型能力提升主要体现为四方面:上下文窗口,知识密度增强和强化学习等

来源:中国信息通信研究院    时间:2024/12/13

OpenAI 等基于大量工程实验和反复验 证提出缩放定律,揭示了模型能力与计算能力、参数量和数据量间 的定量关系,业界也遵循该定律指导资源要素投入、推动模型创新 发展,近年来在模型技术能力、通用泛化水平等方面取得一系列突 破性进展。目前,大模型支持模态已逐步从自然语言处理拓展到多 模态理解和生成等场景。

从 2023 年至今的基准测试结果来看,大模型能力已经出现 阶跃式提升。语言大模型能力提升主要体现为以下四方面。

一是上下文窗口长度扩展,提升全局能力。大模型的上下文窗口长度是指 模型在执行文本生成任务时,能够处理的前置文本的数量或长度, 决定了模型对信息的理解深度和广度,对于理解和生成连贯、一致 且准确的文本具有重要意义。当前,国内外主流大语言模型均具备 128k 以上的上下文长度处理能力,可一次性处理数十万单词或汉字。

二是知识密度增强,储存更多知识。随着数据、算力、算法协同发 展,大模型知识密度持续增强,平均每 8 个月翻一番。2020 年 6 月 发布的 GPT-3 大模型有 1750 亿个参数,2024 年 2 月面壁智能发布 MiniCPM-2.4B 模型在实现同等性能的同时,参数规模降至 24 亿, 相当于知识密度提G了约 86 倍。

三是 MoE 混合专家架构能够容纳更多知识,准确刻画任务。MoE 稀疏激活多个专家子模型支路,加权 融合多个子模型结果,实现更加准确的输出,提G推理计算效率。 目前,谷歌的 Gemini-1.5 Pro、Mistral AI 的 8x7B 与 8x22B、阿里云 Qwen-1.5 MoE、阶跃星辰 Step-2 等头部大模型均采用 MoE 架构, 已 成 为 当 前 大 模 型 的 重 要 演 进 趋 势 。

四 是通过强化学习 (Reinforcement Learning,RL)将思维链(Chain of Thought,CoT) 内化进模型,提升复杂推理能力。2024 年 9 月 OpenAI 发布的 o1 系 列模型在后训练(Post-Training)阶段采用强化学习和思维链的技术方案,不仅在“慢思考”后回答复杂问题的表现优异(尤其是在 STEM L域的推理能力显著增强),还具有了自我反思与错误修正能力, 使自博弈强化学习有望成为提升语言大模型逻辑推理能力的技术新范式。



 
 
 
相关推荐
» 合成数据技术创新主要呈现四大趋势:深度进化 不断突破 融合发展 隐私保护
» 2024具身智能科技前沿热点:智能灵巧操作大模型,空间智能,人形机器人,大规模仿真训练平台,触感灵巧手,具身智能导航大模型等
» 仿人形机器人产业链空间广阔,未来或达到万亿市场空间
» 智能迎宾机器人关键技术:运控算法
» 2025年中国机器人产业发展形势:规模将持续扩大,对机器人产品需求更加多样化
» 2025年中国机器人技术发展趋势:自主创新,多技术融合与跨界合作
» 2025年中国机器人应用发展趋势:深度广度持续扩展,更加多元化、智能化
» 机器人产业面临的三个主要问题:行业内卷无序价格竞争,关键核心技术和占有率低
» 老人陪伴机器人市场前景:潜在需求约4200亿
» 京津冀人形机器人产业发展情况:产业链协同发展模式
» 长三角人形机器人产业发展情况:完整的机器人产业链条
» 珠三角人形机器人产业发展情况:全球人形机器人供应链的重要集聚区
 
 
 
  » 联系我们
X 关闭  
 
网站首页
关于创泽 公司简介   资质荣誉   企业文化
新闻资讯 公司新闻 [机器人新闻 董事长新闻 比赛与荣誉类]  行业动态
解决方案 商用服务机器人   陪护机器人   安防机器人   智能医疗机器人  党建机器人
服务支持 常见问题   下载
人才招聘 招聘信息   精彩瞬间
党群建设 党建活动   工会活动   其他活动
商务合作 招募支持   报名提交
联系我们 售后服务   留言咨询
   
   
 
联系我们  
北京·清华科技园C座五楼
山东省日照市开发区太原路71号
版权所有 © 创泽智能机器人集团股份有限公司           中国运营中心:北京·清华科技园C座五楼       生产研发基地:山东日照太原路71号       电话:4008-128-728