当前位置：首页 > > 迎宾机器人 > 展厅迎宾机器人小脑技术的演进：视觉-语言模型进行模仿学习

展厅迎宾机器人小脑技术的演进：视觉-语言模型进行模仿学习

来源：中国信息通信研究院编辑：创泽时间：2025/1/3 主题：其他 [加盟]

传统的机器人控制方法依赖于准确的动力学模型和专家知识，难以适应非结构化环境的不确定性和复杂性。近年来，学习型控制的发展使得机器人能够从数据中学习控制策略，但其泛化能力和鲁棒性仍难以满足复杂场景需求。大模型为机器人控制引入了丰富的先验知识和泛化能力，有望进一步突破传统控制方法的局限性。整体上看，目前展厅迎宾机器人的“小脑”核心技术正在从基于模型的控制方法向基于学习的控制方法演进。

在强化学习L域，大模型为引入先验知识和提G样本效率提供了新的思路。以 LanguagePlan 为例，该模型利用 GPT-3 根据任务描述生成抽象的行动计划，如“先走到门口，然后打开门，再走出房间”。然后，LanguagePlan 将该行动计划嵌入到状态空间中，作为额外的观察信息，用于训练一个分层强化学习智能体。实验表明，LanguagePlan 能够显著提G样本效率和泛化性能，加速复杂任务的学习。类似地，LOFT、T-EBM 等模型也展示了利用语言模型引导策略学习的能力。

在模仿学习方面，视觉-语言模型为机器人学习复杂技能提供了新的范式。以 CLIP-ASAP 为例，该模型首先利用 CLIP 将视频帧编码为语义特征，然后通过因果语言建模学习动作与视觉变化之间的关系。在控制阶段，CLIP-ASAP 根据语言指令和当前视觉观察，预测下一时刻的关键帧，并将其传递给低层控制器执行。实验表明，CLIPASAP 能够学习复杂的长期技能，如烹饪、家政等，且具有很强的泛化能力，能够根据不同的指令组合技能。类似地，R3M、Pix2R 等模型也展示了利用视觉-语言对齐进行模仿学习的能力。

尽管大模型在机器人控制中展现出了广阔的应用前景，但如何进一步提G其实时性、鲁棒性和可解释性仍然是亟待解决的问题。此外，如何将控制与感知、决策和规划更紧密地结合，构建端到端的自主系统，也是未来的重要研究方向。