|
|
| 当前位置:首页 > 行业动态 > 具身大模型:人形机器人智慧内核,主流框架为分层式与端到端式,VR遥操作采集、 机械臂主从控制采集、数据手套遥操作 |
具身大模型:人形机器人智慧内核,主流框架为分层式与端到端式,VR遥操作采集、 机械臂主从控制采集、数据手套遥操作 |
| 来源:兴业证券 时间:2026/4/20 |
|
具身大模型是人形机器人的“大脑”,主导“感知-认知-控制”交互闭环。传统大模型专注于单一或少数模态的任务处理,缺乏与物理世界直接交互的能力。具身大模型 作为人形机器人的“大脑”,从“感知-认知-控制”层面赋能机器人,强调与物理世界的交互,需具备多模态感知、自主决策、实时交互执行、通用与泛化等能力。 人形机器人目前尚未实现大规模应用,主要原因或非硬件能力不足,而是大模型存在瓶颈。 从产业进程来看,当前机器人肢体层技术已较为成熟,而大模型的发展远落后于硬件。当前阶段的具身大模型已具备认知、推理与规划能力,不足之处在于难以可靠处理复杂物理世界的不确定性,同时泛化能力明显较弱。 具身大模型主流框架为分层式与端到端式,路径尚未收敛。传统决策采用分层架构,包括感知与互动、高层规划、低层执行以及反馈与增强,通过大小脑分层,人形机器 人更容易落地,但分层范式存在错误累积的问题,且在跨多样任务泛化时表现不佳。端到端框架基于感知环境和机器人状态直接输出具体的机器人执行命令,将感知、语 言理解、规划、动作执行和反馈优化集成到一个统一的框架中,具备高集成度与较强泛化能力,VLA模型是端到端决策的核心。 海外具身大模型:1)典型的完全端到端架构具身大模型包括谷歌DeepMindRT-2 与特斯拉FSD。RT-2 致力于通过端到端的神经网络将视觉和语言信息直接映射为机器 人动作;特斯拉Optimus 可沿用汽车FSD 系统的技术栈,实现多模态输入与实时动作输出。2)典型的分层具身大模型包括Figure Al Helix、英伟达GROOT N1与Physical Intelligence πo Helix采用“系统S1 (快思考)+系统S2 (慢思考)”双系统架构;GROOT N1同样采用双系统架构,并利用流匹配技术来生成动作;π。采用“预训练 VLM+ 动作专家模块”的VLA 模型。 国内具身大模型:架构持续创新,能力对标海外,典型模型包括智元机器人G0-1、 星动纪元ERA-42、 银河通用GraspVLA、 灵初智能Psi R1及字节Seed GR-3。G0-1 开创性提出VLLA 架构,采用“VLM+MoE (混合专家)”; ERA-42 模型是国内个真正意义上的端到端原生机器人大模型;GraspVLA 模型将VLM 与动作专家集成,是 个合成大数据驱动的基础抓取大模型:Psi R1模型采用快慢脑架构;GR-3 采用40亿参数的混合变换器架构,泛化抓取-放置能力超越πo 数据是驱动具身大模型迭代升J的关键,目前主流数据训练方案为真机、仿真与视频数据相结合。伴随具身智能转向端到端大模型,数据需求从低量单一模态数据逐步升 J为海量、多模态、高精度和跨任务长程数据,其中真机数据价值Z高,获取难度Z大,是具身智能落地的可靠数据源。 目前真实数据采集方式主要分为VR遥操作采集、 机械臂主从控制采集、数据手套遥操作等。目前主流厂家数据采集及训练方案多样,特斯拉数采方案或转向视频学习,而银河通用以物理仿真数据为主、真实数据为辅。
![]() |
| 相关推荐 |
|
»
具身智能数据行业研究白皮书2026-数据规模正在重塑竞争格局,商业化路径已日渐清晰,多模态的"状态-动作-反馈"轨迹
» 全球30家人形机器人公司:产品和进度 » 22家人形机器人公司IPO进程表 » 2025年人形机器人市场研究报告-出货量约1.7万台,市场规模达到28.8亿,相关专利累计申请量达800项 » 具身智能机器人在工业场景的落地有哪些?物流运输、精密装配、巡检、打磨等场景 » 2025年中国一级市场具身智能领域大额(>5亿人民币))融资事件 » 2025具身智能机器人场景应用白皮书:发展现状、核心洞察、落地挑战与未来范式,万亿级的实体智能市场在蓄力成型 » 2026年具身智能年度策略:量产渐近,爆发在即,有望达210万台,空间约3146亿人民币 » 微信ClawBot控制人形机器人双臂智能抓取,开启智能操控新方式 » 临汾智造闪耀京城!创泽具身智能代表山西亮相北京 AI 顶级盛会 |
![]() ![]() ![]() |
![]() |
|
|
|||||||||||||||||||||||||||||||||||||||||
| 版权所有 © 创泽智能机器人集团股份有限公司 中国运营中心:北京·清华科技园C座五楼 生产研发基地:山东日照太原路71号 电话:4008-128-728 |