当前位置：首页 > 新闻资讯 > 行业动态 > 具身智能系统中的“大脑”技术实现

具身智能系统中的“大脑”技术实现

来源：《计算》编辑部编辑：创泽时间：2026/6/8 主题：其他 [加盟]

当前具身智能系统中多个关键技术正在快速发展与融合，支撑智能系统实现像人类一样的认知闭环，这些技术主要包括具身大模型、世界模型、具身记忆、行为预测与自主学习等。

近年来，具身大模型因其可以端到端地在复杂真实环境中通过感知信息来进行对应的决策行动而备受关注。与传统的人工智能系统不同，具身大模型集成了多种感官模态，如视觉、语言和音频等，使得智能体能够感知并与物理环境进行互动。近年来，随着大语言模型（large language model,LLM）与多模态感知系统的发展，促使了一系列例如 RT-2! 、OpenVLA¹²)、π .1³、 Gemini Robotics 等新型具身大模型的开发。这些研究聚焦于具身大模型的数据集、多模态对齐融合等方向，使模型能够同时处理多模态输入，并输出与物理世界的交互动作。

此外，备受关注的还有世界模型研究领域。当前的研究核心是理解与建模变化中的世界，并对变化世界的下一时刻状态进行预测，主要侧重于两个方面：构建内部表征以理解世界并预测未来状态以模拟和指导决策。2022年，Yann LeCun¹5提出了一种联合嵌入预测架构，它由一个处理感官数据的感知模块和评估这些信息的认知模块组成。Z近的研究也结合大语言模型、视觉模型等方法捕捉包括空间与时间知识，或是在模型内部嵌入类脑结构16，这使得模型可以根据先前的经验学习预测未来事件。总体来看，世界模型的研究仍处于起步阶段，不同研究从各自角度提出技术方案，尚未形成统一范式，仍在不断演化与迭代之中，未来还有很大的发展空间。

具身记忆领域模仿人脑的记忆机制，存储与环境交互过程中积累的经验、场景特征、任务状态等。它不仅记录“做过什么”，更记录“在哪种情境下做过什么”，支持决策模块在未来情境中快速匹配已有经验。当前具身记忆系统多通过显式的多层J图结构17-18或隐式的 Transformer架构19来实现，研究热点集中于记忆检索、跨模态统一表示以及记忆与策略学习的协同机制等方向，例如，OpenAI 在引入了外部“长期记忆”机制[20, 为大语言模型提供跨会话的记忆能力；Meta AI于 2024年提出的V-JEPA 架构21则采用时空遮蔽策略，在抽象表示空间内预测视频中的被遮挡内容，有助于捕捉高J概念信息。

行为预测领域关注通过对历史及实时数据的分析，预判自身或其他实体的未来动作轨迹，从而解决物理环境中的动态不确定性。近年来，行为预测技术已从简单的轨迹推演扩展至复杂场景的动态建模。当前研究聚焦于如何通过高效的序列建模22、潜变量学习 1 2等技术，使智能体具备类人的预判能力，为智能体提供前瞻性决策依据。

自主学习领域通过智能体与环境的动态交互实现策略优化和能力演进，其核心包括强化学习、主动学习、终身学习、逻辑推理、进化算法等技术。其中，强化学习作为核心范式，驱动智能体在试错中优化决策策略，通过“状态—动作—奖励”的交互机制优化智能体的决策与行动策略，使其能自主学习复杂任务241。而主动学习也可以通过少量数据标注，引导视觉模型达到更好的训练效果，提升智能体的感知能力²5。

综上所述，尽管当前具身智能的研究在感知、记忆、学习、决策等方向上各有侧重，但这些能力并非孤立发展或简单叠加。多种技术通过信息流动、任务协同与反馈调节，共同构成了一个高度耦合、动态反馈的一体化智能系统。其中感知模块接收的多元环境信息，为记忆模型对当下环境理解与未来预测提供了实时输入；学习模型构建的内部分析与状态预测结果，又影响决策模块对未来的评估决策；而环境反馈又驱动着整个系统策略的持续优化，并持续提升感知精度与预测能力，形成一个紧密协作的闭环。

需要指出的是，尽管大语言模型在环境理解与任务决策中展现出强大的能力，但它并不能d立承担具身智能系统的全部“大脑”功能。大模型依赖于海量离线数据训练，具备丰富的语言与视觉先验知识。然而，这类模型本质上并非“具身”的，它们缺乏对实时环境的直接感知能力，也无法通过自主行为从环境中持续获取信息。具身智能系统面临的环境动态变化、不可预见、充满噪声，因此系统需要通过实际的传感器输入感知当下情境，并与世界持续互动。这些信息往往具有时序性、局部性和物理约束性，无法仅通过离线训练建模获得。因此，大模型可被视为“知识引擎”,能够在推理、理解、计划中发挥作用，但实现具身智能系统还需要依赖于对具身环境的感知、对情境的记忆积累以及对行动结果的反馈等技术协同，才能实现完整、闭环的智能能力。

查看更多相似文章