首页
产品系列
行业应用
渠道合作
新闻中心
研究院
投资者关系
技术支持
关于创泽
| En
 
  当前位置:首页 > 新闻资讯 > 行业动态 > OmniManip引⼊了 VLM 规划和机器⼈执⾏的双闭环系统设计,提升机器人3D操作能力  
 

OmniManip引⼊了 VLM 规划和机器⼈执⾏的双闭环系统设计,提升机器人3D操作能力

来源:机器人大讲堂      编辑:创泽      时间:2025/1/27      主题:其他   [加盟]

近年来视觉语⾔基础模型(Vision  Language  Models,  VLMs)在多模态理解和⾼层次常识推理上⼤放异彩,如何将其应⽤于机器⼈以实现通⽤操作是具身智能L域的⼀个核⼼问题。这⼀⽬标的实现受两⼤关键挑战制约:

1. VLM 缺少准确的 3D 理解能⼒:通过对⽐学习范式训练、仅以 2D 图像 / ⽂本作为输⼊的 VLM 的天然局限;

2. ⽆法输出低层次动作:将 VLM 在机器⼈数据上进⾏微调以得到视觉 - 语⾔ - 动作(VLA)模型是⼀种有前景的解决⽅案,但⽬前仍受到数据收集成本和泛化能⼒的限制。

针对上述难题,北⼤携⼿智元机器⼈团队提出了 OmniManip 架构,基于以对象为中⼼的 3D 交互基元,将 VLM 的G层次推理能力转化为机器⼈的低层次G精度动作。

针对⼤模型幻觉问题和真实环境操作的不确定性,OmniManip 创新性地引⼊了 VLM 规划和机器⼈执⾏的双闭环系统设计,实现了操作性能的显著突破。

实验结果表明,OmniManip 作为⼀种免训练的开放词汇操作⽅法,在各种机器⼈操作任务中具备强⼤的零样本泛化能⼒。

OmniManip 的关键设计包括:

基于 VLM 的任务解析:利⽤ VLM 强⼤的常识推理能⼒,将任务分解为多个结构化阶段(Stages),每个阶段明确指定了主动物体(Active)、被动物体(Passive)和动作类型(Action)。

以物体为中⼼的交互基元作为空间约束:通过 3D 基座模型⽣成任务相关物体的 3D 模型和规范化空间(canonical space),使 VLM 能够直接在该空间中采样 3D 交互基元,作为 Action 的空间约束,从⽽优化求解出 Active 物体在 Passive 物体规范坐标系下的⽬标交互姿态。

闭环 VLM 规划:将⽬标交互姿态下的 Active/Passive 物体渲染成图像,由 VLM 评估与重采样,实现 VLM 对⾃身规划结果的闭环调整。

闭环机器⼈执⾏:通过物体 6D 姿态跟踪器实时更新 Active/Passive 物体的位姿,转换为机械臂末端执⾏器的操作轨迹,实现闭环执⾏。

物体的交互基元通过其在标准空间中的交互点和⽅向来表征。交互点 p∈R3 表示物体上关键的交互位置,⽽交互⽅向 v∈R3 代表与任务相关的主要轴。这两者共同构成交互基元 O={p,v},封装了满⾜任务约束所需的基本⼏何和功能属性。这些标准交互基元相对于其标准空间定义,能够在不同场景中保持⼀致,实现更通⽤和可重⽤的操作策略。

对于通⽤物体的交互点提取,OmniManip 利⽤视觉语⾔模型(VLM)在原图(当部件可⻅且实体存在时)或在正交视图中渲染的 3D ⽹格(当部件不可⻅或实体不存在时)上进⾏定位。

与 CoPa 和 ReKep 等⽅法不同,OmniManip 直接让 VLM 进⾏ grounding,不会受限于不稳定的 part 分割或聚类结果。

在交互⽅向的采样⽅⾯,由于物体的规范化空间通过 Omni6DPose 锚定,轴的⽅向与语义对⻬,该团队让 VLM 直接对物体标准空间的轴进⾏语义描述,并根据操作任务进⾏匹配度排序,以获得交互⽅向的候选。

双闭环系统设计

李⻜⻜团队的⼯作 ReKep 通过关键点跟踪巧妙地实现了机械臂的闭环执⾏,但其 VLM 规划过程是开环的。OmniManip 则更进⼀步,得益于以物体为中⼼的设计理念,⾸次在 VLM 规划和机械臂执⾏层⾯实现了双闭环系统:

闭环规划:在实验中,VLM 推理很容易出现幻觉,导致错误的规划结果(尤其是在涉及 3D 旋转的任务中,如倒⽔、插笔)。OmniManip 赋予 VLM 闭环规划能⼒,通过渲染物体的三维模型,帮助 VLM 「脑补」出规划结果后的物体样貌,再判断其合理性。

这⼀功能赋予了 VLM 空间反思能⼒,使其能够在测试时进⾏推理,类似于 OpenAI 的 O1,⼤⼤提⾼了操作成功率。为了保持框架的简洁性,研究团队没有设计复杂的测试时推理流程,仅作⼀轮校验就已明显提⾼了 VLM 的规划准确率。

闭环执⾏:OmniManip 提取的交互基元位于物体的规范空间中,只需引⼊⼀个 6D 位姿跟踪器即可轻松实现闭环操作。与 ReKep 使⽤的关键点跟踪器相⽐,基于物体的 6D 位姿跟踪⽅式更为稳定,并对遮挡具有更强的鲁棒性。(缺点则是不如关键点灵活、⽆法建模柔性物体操作。)

▍实验结果

强⼤的开放词汇操作性能

在 12 个真机短程任务上,OmniManip 均展现出不错的性能。

双闭环系统设计为 OmniManip 带来了约 17% 的性能提升,这证明了 RRC 在有效减少⼤模型幻觉影响⽅⾯的作⽤。

交互基元的鲁棒性

VLM 需要基于交互基元对机器⼈操作进⾏规划,如果交互基元本身存在问题,VLM 就会陷⼊「巧妇难为⽆⽶之炊」的困境。因此,可靠的交互基元⾄关重要。以往的⽅法通常是让 VLM 直接在相机拍摄的 2D 图像上采样交互基元,然后通过相机的内外参数转换到 3D 空间。

然⽽,由于 2D 图像存在空间歧义,采样效果对相机视⻆、图像纹理和部件形状等因素J为敏感(例如,当相机平视杯⼦时,之前的⽅法只能对准杯⼦的侧壁、⽽不是开⼝)。⽽ OmniManip 则是在物体的 3D 规范空间中进⾏采样,能够轻松克服 2D 图像的局限性,实现可靠的 3D 交互基元提取。

强⼤的拓展性与潜⼒

OmniManip 能够与 high-level 任务规划器结合,实现⻓程任务操作

作为⼀种以物体为中⼼的算法,OmniManip 与机械臂本体解耦,能够零成本迁移⾄不同形态的本体(例如双臂⼈形机器⼈)。

OmniManip 具有强⼤的通⽤泛化能⼒,不受特定场景和物体限制。团队已将其应⽤于数字资产⾃动标注 / 合成管道,实现⼤规模的机器⼈轨迹⾃动采集。



中国人工智能系列白皮书:复合多态机器人,具身智能重要实现路径的技术特点、应用场景及未来发展潜力

探讨了复合多态机器人作为具身智能重要实现路径的技术特点、应用场景及未来发展潜力。报告通过多模态感知、多场景适应和功能解耦等技术核心,全面分析了智能机器人如何革新服务与生产模式

移动机器人(AGV_AMR)专用激光雷达产品发展蓝皮书-销售数量约210000 台, 销售规模约 8亿

中国市场AG V/AMR专用激光雷达销售数量约 210000 台, 销售规模约 8亿元; 相信 3D多线 激光雷达将在移动机器人领域迅速打开市场

表情陪伴人形机器人:AI 陪伴的高级赛道,市场需求近万亿,老年人群中的潜在需求约4200亿

测算出陪伴机器人在老年人群中的潜在需求约 4200亿元人民币,陪伴机器人在青年人群中的潜在需求约5000亿元人民币,在医疗场景下也有较大的应用前景

表情陪伴人形机器人:AI陪伴的高级赛道,需求近万亿,老年人需求约 4200亿

人人都需要陪伴,中国陪伴机器人潜在市场需求近万亿;老年人群中的潜在需求约4200亿元;在青年人群中的潜在需求约5000亿,自闭症儿童的情绪监控领域也有较大的应用前景

医疗场景陪伴机器人市场前景:潜在需求约39亿

全球5岁以下患自闭症儿童人数超过60万人,平均每个儿童每年花费6万 美元,每年治疗费用约360亿美元。假设当前的陪伴机器人价格为6500美 元(参考东芝的宫原香苗机器人价格6500美元~12000美元),若每个自闭 症儿童配备一个陪伴机器人,潜在市场需求为39亿美元

青年陪伴机器人市场前景:潜在需求约5000亿

陪伴机器人在中国青年人群中的潜在市场需求约5000亿,售价将会在0.5-6万元区间,我们认为以2万元/台作为价格的中性假设是合理的

深圳人形机器人产业发展情况:具有人形机器人产业先发优势

深圳市机器人产业发展良好,且拥有优必选、逐际动力、乐聚机器人等一批本体企业,发布了优必选Walker X、乐聚夸父、逐际动力CL-1等人形机器人产品,已具有人形机器人产业先发优势

珠三角人形机器人产业发展情况:全球人形机器人供应链的重要集聚区

珠三角地区是全球人形机器人供应链的重要集聚区,控制、伺服系统技术较为领先;以深圳为发展重心,广佛莞为发展主力的人形机器人产业发展格局

长三角人形机器人产业发展情况:完整的机器人产业链条

长三角是我国工业机器人产业发展最为完备的区域之一,产能规模大,产业链条完整,产业投资集聚度高,以上海为核心,苏州、南京、常州、杭州、宁波、芜湖多点发力的发展格局,综合实力走在全国前列。

京津冀人形机器人产业发展情况:产业链协同发展模式

北京科技创新资源丰富,产业发展程度在三地居于首位,而天津与河北工业基础也较雄厚且传统产业转型需求旺盛,故许多机器人企业采取北京研发,生产,落地在天津,河北的模式,且河北发展成为京津机器人企业的重要零部件供应地

老人陪伴机器人市场前景:潜在需求约4200亿

陪伴机器人在中国老年人群中的潜在市场需求为4200亿人民币,未来中国陪伴机器人(含桌面级、宠物级、表情陪 伴机器人)的售价将会在0.5-6万元区间

机器人产业面临的三个主要问题:行业内卷无序价格竞争,关键核心技术和占有率低

机器人产品在技术上趋于同质化,难以形成明显的差异化竞争优势;部分关键核心技术仍需突破,限制产业进一步发展;部分国产机器人品牌在高端市场表现相对薄弱
 
资料获取

服务机器人在展馆迎宾讲解
新闻资讯
== 资讯 ==
» 四足机器人场景应用发展蓝皮书-市场约70
» 迎宾机器人的位置传感器:电位器、光电编码
» 人形机器人上岗餐饮酒店服务场景(如迎宾、
» 智能清洁机器人在商业综合体清洁场景,。模
» 中国人工智能系列白皮书—-具身智能(20
» 腰部外骨骼机器人,20kg的攀登与行走助
» 室内安防巡检机器人的数据中心巡检场景:多
» 光伏机器人清洁太阳能板的七大优点:独有性
» 2025上海智能机器人百大场景案例集-重
» 具身大模型:人形机器人智慧内核,主流框架
» 具身智能数据行业研究白皮书2026-数据
» 2025上海市“AI+制造”发展白皮书,
» Hermes橙皮书《Hermes Age
» 清华大学《OpenClaw在企业办公中的
» 基于多机器人协作的关键问题:有限带宽和地
 
== 机器人推荐 ==
 
迎宾讲解服务机器人

服务机器人(迎宾、讲解、导诊...)

智能消毒机器人

智能消毒机器人

机器人底盘

机器人底盘

 

商用机器人  Disinfection Robot   展厅机器人  智能垃圾站  轮式机器人底盘  迎宾机器人  移动机器人底盘  讲解机器人  紫外线消毒机器人  大屏机器人  雾化消毒机器人  服务机器人底盘  智能送餐机器人  雾化消毒机  机器人OEM代工厂  消毒机器人排名  智能配送机器人  图书馆机器人  导引机器人  移动消毒机器人  导诊机器人  迎宾接待机器人  前台机器人  导览机器人  酒店送物机器人  云迹科技润机器人  云迹酒店机器人  智能导诊机器人 
版权所有 © 创泽智能机器人集团股份有限公司     中国运营中心:北京·清华科技园九号楼5层     中国生产中心:山东日照太原路71号
销售1:4006-935-088    销售2:4006-937-088   客服电话: 4008-128-728