具身智能是一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息理解问题、做出决策 并实现行动,从而产生智能行为和适应性。具体而言,具身智能在机器人上的应用体现可以划分为三阶段:感知、推 理、执行。
具身智能是机器人与人工智能发展的交汇点。机器人的通用性取决于泛化性的发展程度,自20世纪50年代以来,经过 多轮发展,机器人开始从传统的自动化工业场景机器人,向通用泛化场景的机器人方向发展。而人工智能在几十年发 展过后,在今天迎来了智能程度、通识程度更高的生成式大模型时代。在当前时间点,人工智能可以真正为机器人赋 予“大脑”,机器人也可为人工智能提供“身体”,两者深度融合,而融合的交点——具身智能,则是人工智能与机 器人相互促进发展而形成的必然的产业趋势。
目前具身大模型可以分为两大流派,一类是端到端大模型,一类是分层具身大模型。1)端到端大模型:能够直接实 现从人类指令到机械臂执行,即输入图像及文本指令,输出夹爪末端动作。
2)分层具身大模型:不同层次模型协作, 上层大模型进行感知与决策,底层硬件层和中间响应快的小模型进行决策的分解与执行。目前,由于受数据制约难以 达到性能要求,端到端大模型尚未成为主流选择,更多厂商还是选择以分层模型为机器人的具身智能。
训练具身大模型的痛点:数据。机器人需要用海量数据进行训练,使其变得更加智能。但机器人是非常新的领域,严 重缺乏训练数据的积累。对应而言,目前主要的数据收集方法有四种:1)远程操作,即由实验人员操作机械手柄,远 程控制机器人做出相同动作,以此来积累数据;2)AR,即通过AR环境对机器人进行训练,积累数据;3)仿真,即 通过海量算力进行模拟运算,计算得出海量机器人训练数据集;4)视频学习,即通过多模态大模型,直接让机器人通 过视频学习人类动作,从而积累训练数据。
人形机器人产业未来展望:从专用到通用,从ToB到ToC。短期来看,任务相对聚焦,对泛化能力要求不高工业制造 场景下的任务正在更快进入商业化阶段。在工业制造场景实现商业化落地之后,海量机器人的具身数据叠加算力技术 的进步,机器人的能力将循序渐进逐步解锁,并向商用服务、家庭服务等更开放的场景进行延伸,届时市场有望达万 亿J。
![]() |
机器人底盘 Disinfection Robot 消毒机器人 讲解机器人 迎宾机器人 移动机器人底盘 商用机器人 智能垃圾站 智能服务机器人 大屏机器人 雾化消毒机器人 展厅机器人 服务机器人底盘 核酸采样机器人 智能配送机器人 导览机器人 |