当前位置:首页 > ai智能 > 2024年AI大模型技术变迁情况回溯:技术演进方向,推动机器人场景应用落地,AI应用商业化
 

2024年AI大模型技术变迁情况回溯:技术演进方向,推动机器人场景应用落地,AI应用商业化

来源:中国移动智慧家庭运营中心    时间:2025/1/2

2024 年大模型技术快速演进,相较于 2023 年的大小模型之 争,技术的进步方向逐步向应用落地方向倾斜,降低端侧模型 部署门槛,缩短模型推理时延,提升模型交互能力,大模型的 发展迎来了新的变化。本文将从技术视角梳理 2024 年以来大模 型各个L域发生的变化,以行业L先实践为佐证,提出大模型技术演进方向。语言大模型发展迎来新范式,通过强化学习优 化内部思维链策略,以提升复杂逻辑推理能力。多模态大模型架构正向端到端演进,决策准确性和灵敏度提升推动机器人场景应用落地。在视频生成L域,DiTs 架构的可扩展性优势显现, 推动 AI应用商业化。在硬件部署方面,模型压缩、安全控制等 技术正降低部署门槛。在智能体实践方面,垂类大模型开始在 智能终端环境应用。在合成数据策略方面,自我奖励语言模型 生成合成数据,试图打破数据瓶颈。

一、语言大模型的新范式:强化学习优化思维链

规模定律的延伸

在2024年之前,语言大模型的“规模定律”已经得到了业界的广泛认可。模型参数的扩展、数据集质量的提升以及人工微调,使得语言模型展现出了前所未有的泛化能力和通用能力。然而,2024年的技术进步,将这一定律延伸至后训练阶段。

OpenAI的o1推理大模型

今年9月,OpenAI公开发布的o1推理大模型,通过强化学习优化模型内部思维链推理逻辑步骤,模拟人的思考过程,加深对问题的理解程度,从而提升处理复杂推理任务的能力。这一技术突破,标志着语言大模型的发展迎来了新范式。

强化学习的威力

通过强化学习,模型学会了精炼思维链并优化所用策略,识别并纠正错误,将复杂步骤分解为更简单的部分,并在当前方法无效时尝试不同的途径。这一过程显著提升了模型的推理能力,在多个G难度推理基准测试中,o1的表现超越了人类专家和GPT-4o,展示了其强大的推理能力和专业知识。

二、多模态大模型:端到端架构的演进

跨模态到端到端的转变

过去,多模态大模型多采用基于语言模型为主干的跨模态架构,通过模态特定的编码器转化为统一的向量表示后再输入语言模型。但这样的架构带来了任务响应时间长、模态间交互细节损失的问题。

端到端架构的优势

2024年以来,以GPT-4o、Gemini为代表的多模态大模型开始使用端到端支持多种模态统一输入输出的模型架构。这一架构通过简化模型的输入接口,减少模态间的信息损失,提升了模型处理即时任务的响应时间。

英伟达的GR00T项目

在2024GTC大会上,英伟达发布了人形机器人项目GR00T,基于控制、执行和决策三个层J分层实现模型的端到端训练学习,通过合并反向反馈得到准确输出结果,大幅提升了机器人处理复杂任务的精度、G效性以及灵活性。

三、视频生成L域的突破:DiTs架构的可扩展性

DiTs架构的优势

2024年以来,国内外科技大厂发布的视频生成模型多以DiTs为基础,基于Transformer架构的扩散模型在视频生成任务中可扩展性优势凸显。相较于原先的U-Net卷积网络架构,Transformer骨干架构可以提供基于参数规模和训练数据量提升而带来更优越的性能。

OpenAI的Sora视频生成模型

OpenAI发布的视频生成模型Sora基于DiTs架构,在生成视频的像素稳定性、前后逻辑连续性以及信息丢失等方面有大幅提升。Sora在数据处理和视频标注L域做了创新,基于视频编码器将样本空间数据进行时间空间维度压缩和Patch化处理,再通过相应解码器实现隐空间向视频像素空间的映射,以训练新的视频压缩网络实现长视频生成的能力。

Meta Movie Gen视频生成模型

Meta Movie Gen视频生成模型发布,其在原先视频生成模型架构的基础上,叠加了一个13B参数转换器模型Meta Gen Audio,通过数百万个小时的音频参考数据的对比总结,Meta Gen Audio可准确匹配声音和画面之间的对应关系,根据不同情绪和环境的提示词,找到与画面出色契合的音乐。

四、硬件部署实践:端云结合架构的创新

苹果的Apple Intelligence

苹果在2024年6月发布的Apple Intelligence为大模型硬件部署实践提供了很好的指引。Apple Intelligence采用端云结合方案,分别在设备端和服务器端部署大小语言模型(AFM-on-device和AFM-server),不同应用可以通过统一的语义索引、意图检测等工具调用AFM模型。

量化压缩叠加适配器架构

为保障在端侧设备上运行模型同时避免精度上损失,苹果创新推出量化压缩叠加适配器的架构,一方面采用量化压缩的方法降低模型大小,同时通过LoRA适配器来恢复量化模型的精度。

Responsible AI原则

苹果制定了Responsible AI原则,包括用户赋能、代表、谨慎设计、隐私保护四大原则,被整合到基础模型开发的每一个环节中,包括数据的收集与处理、模型训练、模型评估、用户反馈等。

LLM-in-a-flash技术

苹果研发了LLM-in-a-flash技术,让大模型可以不受限于DRAM的限制,在推理时将参数加载至闪存中来辅助完成计算,分担存储压力,从而降低端侧设备部署大模型门槛。


附件:2024年AI大模型技术变迁情况回溯:技术演进方向,推动机器人场景应用落地,AI应用商业化



 
 
 
相关推荐
» 新一代智能终端发展研究2025,1+8技术体系,终端具备智能感知与决策能力
» 智能体应用现状挑战及建议2025,智能体的技术特征、发展历程、应用场景和产业生态
» 2025中国人工智能行业大模型应用实践与展望报告-发展趋势、产业生态建设、政策法规等情况,行业应用拓展层面的未来发展预判见解
» 艾瑞《中国人工智能产业研究报告》-AI产业规模为2697亿,增速26.2%,构建面向新一代人工智能的安全治理体系至关重要
» 2025 Agent元年,AI从L2向L3发展,重新定义人机协作的边界,AGI和具身智能的关键环节L3
» 超拟人大模型的情绪价值体验:八大安全场景对大模型进行针对性升级
» 教育大模型:AI赋能智能教育,塑造未来学习新生态,分为通用大模型教育应用和教育专有大模型
» 中国AI+营销趋势洞察与企业落地建议:成本有效的实现规模化扩张,提升用户体验和满意度
» 2024AI教育硬件全景报告:市场规模将达到165亿元,2028有望接近900亿
» 端侧智能行业-人工智能重要应用产品落地爆发在即,落地场景包括 AI PC、AI 手机、AI 可穿戴设备、AI 智能家居、AI 智能汽车、AI 工业设备
» 2024年中国生成式AI行业月度观察报告技术深化领域融合持续增长的AI市场:文心一言月度UV突破2000万,移动端豆包MAU已达2700万
» 2024年AI Agent实施的明路应用实践报告-三个核心能力进行任务规划和问题拆解,场景的智能化解决方案
» 科研智能(AI4R&D) 人工智能驱动的研发新范式:描绘生态全景,为制定产业政策、指导项目布局提供参考
» 2024AIGC创新应用洞察报告:市场规模达到360.6亿美金,增长率达到46.5%
» MoE与思维链助力大模型技术路线破局:MoE模型提升效果显著,拥有人类“慢思考”的特质
 
 
 
  » 联系我们
X 关闭  
 
网站首页
关于创泽 公司简介   资质荣誉   企业文化
新闻资讯 公司新闻 [机器人新闻 董事长新闻 比赛与荣誉类]  行业动态
解决方案 商用服务机器人   陪护机器人   安防机器人   智能医疗机器人  党建机器人
服务支持 常见问题   下载
人才招聘 招聘信息   精彩瞬间
党群建设 党建活动   工会活动   其他活动
商务合作 招募支持   报名提交
联系我们 售后服务   留言咨询
   
   
 
联系我们  
北京·清华科技园C座五楼
山东省日照市开发区太原路71号

扫码关注微信公众号
版权所有 © 创泽智能机器人集团股份有限公司           中国运营中心:北京·清华科技园C座五楼       生产研发基地:山东日照太原路71号       电话:4008-128-728