从斯坦福大学的 VIMA 机器人智能体,到谷歌 DeepMind 推出控制机器人的视觉 - 语言 - 动作(VLA)的模型 RT-2,大模型加持的机器人研究备受关注。
当前,自监督和语言监督的图像模型已经包含丰富的世界知识,这对于泛化来说非常重要,但图像特征是二维的。我们知道,机器人任务通常需要对现实世界中三维物体的几何形状有所了解。
基于此,来自 MIT CSAIL 和 IAIFI 的研究者利用蒸馏特征场(Distilled Feature Field,DFF),将准确的 3D 几何图形与来自 2D 基础模型的丰富语义结合起来,让机器人能够利用 2D 基础模型中丰富的视觉和语言先验,完成语言指导的操作。
论文地址:https://arxiv.org/abs/2308.07931
具体来说,该研究提出了一种用于 6-DOF 抓取和放置的小样本学习方法,并利用强大的空间和语义先验泛化到未见过物体上。使用从视觉 - 语言模型 CLIP 中提取的特征,该研究提出了一种通过开放性的自然语言指令对新物体进行操作,并展示了这种方法泛化到未见过的表达和新型物体的能力。
研究团队用一个讲解视频详细介绍了 F3RM 方法的技术原理:
![]() |
机器人底盘 Disinfection Robot 消毒机器人 讲解机器人 迎宾机器人 移动机器人底盘 商用机器人 智能垃圾站 智能服务机器人 大屏机器人 雾化消毒机器人 紫外线消毒机器人 消毒机器人价格 展厅机器人 服务机器人底盘 核酸采样机器人 机器人代工厂 智能配送机器人 喷雾消毒机器人 图书馆机器人 导引机器人 移动消毒机器人 导诊机器人 迎宾接待机器人 前台机器人 消杀机器人 导览机器人 |