当前具身智能系统中多个关键技术正在快速发展 与融合,支撑智能系统实现像人类一样的认知闭环,这 些技术主要包括具身大模型、世界模型、具身记忆、行为预测与自主学习等。
近年来,具身大模型因其可以端到端地在复杂真 实环境中通过感知信息来进行对应的决策行动而备受 关注。与传统的人工智能系统不同,具身大模型集成 了多种感官模态,如视觉、语言和音频等,使得智能体 能够感知并与物理环境进行互动。近年来,随着大语 言模型(large language model,LLM)与多模态感知系统 的发展,促使了一系列例如 RT-2! 、OpenVLA¹²)、π .1³、 Gemini Robotics 等新型具身大模型的开发。这些研 究聚焦于具身大模型的数据集、多模态对齐融合等方 向,使模型能够同时处理多模态输入,并输出与物理世界的交互动作。
此外,备受关注的还有世界模型研究领域。当前 的研究核心是理解与建模变化中的世界,并对变化世 界的下一时刻状态进行预测,主要侧重于两个方面:构 建内部表征以理解世界并预测未来状态以模拟和指导 决策。2022年,Yann LeCun¹5提出了一种联合嵌入预 测架构,它由一个处理感官数据的感知模块和评估这 些信息的认知模块组成。Z近的研究也结合大语言模 型、视觉模型等方法捕捉包括空间与时间知识,或是在 模型内部嵌入类脑结构16,这使得模型可以根据先前 的经验学习预测未来事件。总体来看,世界模型的研 究仍处于起步阶段,不同研究从各自角度提出技术方 案,尚未形成统一范式,仍在不断演化与迭代之中,未 来还有很大的发展空间。
具身记忆领域模仿人脑的记忆机制,存储与环境 交互过程中积累的经验、场景特征、任务状态等。它不 仅记录“做过什么”,更记录“在哪种情境下做过什么”, 支持决策模块在未来情境中快速匹配已有经验。当前 具身记忆系统多通过显式的多层J图结构17-18或隐式 的 Transformer架构19来实现,研究热点集中于记忆检 索、跨模态统一表示以及记忆与策略学习的协同机制 等方向,例如,OpenAI 在引入了外部“长期记忆”机制[20, 为大语言模型提供跨会话的记忆能力;Meta AI于 2024年提出的V-JEPA 架构21则采用时空遮蔽策略, 在抽象表示空间内预测视频中的被遮挡内容,有助于 捕捉高J概念信息。
行为预测领域关注通过对历史及实时数据的分 析,预判自身或其他实体的未来动作轨迹,从而解决物 理环境中的动态不确定性。近年来,行为预测技术已 从简单的轨迹推演扩展至复杂场景的动态建模。当前 研究聚焦于如何通过高效的序列建模22、潜变量学 习 1 2等技术,使智能体具备类人的预判能力,为智能体 提供前瞻性决策依据。
自主学习领域通过智能体与环境的动态交互实现 策略优化和能力演进,其核心包括强化学习、主动学 习、终身学习、逻辑推理、进化算法等技术。其中,强 化学习作为核心范式,驱动智能体在试错中优化决策 策略,通过“状态—动作—奖励”的交互机制优化智能 体的决策与行动策略,使其能自主学习复杂任务241。 而主动学习也可以通过少量数据标注,引导视觉模型达到更好的训练效果,提升智能体的感知能力²5。
综上所述,尽管当前具身智能的研究在感知、记忆、学习、决策等方向上各有侧重,但这些能力并非孤立发展或简单叠加。多种技术通过信息流动、任务协 同与反馈调节,共同构成了一个高度耦合、动态反馈的 一体化智能系统。其中感知模块接收的多元环境信 息,为记忆模型对当下环境理解与未来预测提供了实 时输入;学习模型构建的内部分析与状态预测结果,又 影响决策模块对未来的评估决策;而环境反馈又驱动 着整个系统策略的持续优化,并持续提升感知精度与 预测能力,形成一个紧密协作的闭环。
需要指出的是,尽管大语言模型在环境理解与任务决策中展现出强大的能力,但它并不能d立承担具身智能系统的全部“大脑”功能。大模型依赖于海量离线数据训练,具备丰富的语言与视觉先验知识。然而, 这类模型本质上并非“具身”的,它们缺乏对实时环境 的直接感知能力,也无法通过自主行为从环境中持续 获取信息。具身智能系统面临的环境动态变化、不可 预见、充满噪声,因此系统需要通过实际的传感器输入 感知当下情境,并与世界持续互动。这些信息往往具 有时序性、局部性和物理约束性,无法仅通过离线训练 建模获得。因此,大模型可被视为“知识引擎”,能够在 推理、理解、计划中发挥作用,但实现具身智能系统还 需要依赖于对具身环境的感知、对情境的记忆积累以 及对行动结果的反馈等技术协同,才能实现完整、闭环 的智能能力。
![]() |
| 机器人底盘 Disinfection Robot 消毒机器人 讲解机器人 迎宾机器人 移动机器人底盘 商用机器人 智能垃圾站 智能服务机器人 大屏机器人 雾化消毒机器人 展厅机器人 服务机器人底盘 具身智能教育机器人 智能配送机器人 导览机器人 |