具身大模型是人形机器人的“大脑”,主导“感知-认知-控制”交互闭环。传统大模型专注于单一或少数模态的任务处理,缺乏与物理世界直接交互的能力。具身大模型 作为人形机器人的“大脑”,从“感知-认知-控制”层面赋能机器人,强调与物理世界的交互,需具备多模态感知、自主决策、实时交互执行、通用与泛化等能力。
人形机器人目前尚未实现大规模应用,主要原因或非硬件能力不足,而是大模型存在瓶颈。 从产业进程来看,当前机器人肢体层技术已较为成熟,而大模型的发展远落后于硬件。当前阶段的具身大模型已具备认知、推理与规划能力,不足之处在于难以可靠处理复杂物理世界的不确定性,同时泛化能力明显较弱。
具身大模型主流框架为分层式与端到端式,路径尚未收敛。传统决策采用分层架构,包括感知与互动、高层规划、低层执行以及反馈与增强,通过大小脑分层,人形机器 人更容易落地,但分层范式存在错误累积的问题,且在跨多样任务泛化时表现不佳。端到端框架基于感知环境和机器人状态直接输出具体的机器人执行命令,将感知、语 言理解、规划、动作执行和反馈优化集成到一个统一的框架中,具备高集成度与较强泛化能力,VLA模型是端到端决策的核心。
海外具身大模型:1)典型的完全端到端架构具身大模型包括谷歌DeepMindRT-2 与特斯拉FSD。RT-2 致力于通过端到端的神经网络将视觉和语言信息直接映射为机器 人动作;特斯拉Optimus 可沿用汽车FSD 系统的技术栈,实现多模态输入与实时动作输出。2)典型的分层具身大模型包括Figure Al Helix、英伟达GROOT N1与Physical Intelligence πo Helix采用“系统S1 (快思考)+系统S2 (慢思考)”双系统架构;GROOT N1同样采用双系统架构,并利用流匹配技术来生成动作;π。采用“预训练 VLM+ 动作专家模块”的VLA 模型。
国内具身大模型:架构持续创新,能力对标海外,典型模型包括智元机器人G0-1、 星动纪元ERA-42、 银河通用GraspVLA、 灵初智能Psi R1及字节Seed GR-3。G0-1 开创性提出VLLA 架构,采用“VLM+MoE (混合专家)”; ERA-42 模型是国内个真正意义上的端到端原生机器人大模型;GraspVLA 模型将VLM 与动作专家集成,是 个合成大数据驱动的基础抓取大模型:Psi R1模型采用快慢脑架构;GR-3 采用40亿参数的混合变换器架构,泛化抓取-放置能力超越πo 数据是驱动具身大模型迭代升J的关键,目前主流数据训练方案为真机、仿真与视频数据相结合。伴随具身智能转向端到端大模型,数据需求从低量单一模态数据逐步升 J为海量、多模态、高精度和跨任务长程数据,其中真机数据价值Z高,获取难度Z大,是具身智能落地的可靠数据源。
目前真实数据采集方式主要分为VR遥操作采集、 机械臂主从控制采集、数据手套遥操作等。目前主流厂家数据采集及训练方案多样,特斯拉数采方案或转向视频学习,而银河通用以物理仿真数据为主、真实数据为辅。

![]() |
| 机器人底盘 Disinfection Robot 消毒机器人 讲解机器人 迎宾机器人 移动机器人底盘 商用机器人 智能垃圾站 智能服务机器人 大屏机器人 雾化消毒机器人 展厅机器人 服务机器人底盘 具身智能教育机器人 智能配送机器人 导览机器人 |