当前位置：首页 > 迎宾机器人 > 智能迎宾服务机器人大模型多技术路线：四条(LLM,VLM,VLA,多模态大模型)

智能迎宾服务机器人大模型多技术路线：四条(LLM,VLM,VLA,多模态大模型)

来源：创泽机器人时间：2025/1/3

从技术路线上看，目前基于大模型的“大脑”技术路线正处在并行探索阶段，并逐渐向端到端的大模型演进。

现阶段主要是 4 条技术路线：

一、 LLM（大语言模型）+VFM（视觉基础模型）

实现人机语言交互、任务理解、推理和规划，目前为成熟。主要代表是谷歌的 SayCan 模型，通过预训练技能的价值函数对齐（Grounds）大语言模型或者通过价值函数的训练使大语言模型对用户指令进行推理分解获得任务步骤。

二、 VLM（视觉-语言模型）

弥合语言与视觉理解间的差距，让机器人实现更准确的任务规划和决策。主要代表是清华大学的 CoPa 模型，利用嵌入在基础模型（比如视觉语言模型的代表 GPT-4V）中的常识知识为开放世界机器人操控生成一系列的自由度末端执行器姿势，生成的操控任务分为任务导向抓取和感知运动规划。

三、 VLA （视觉-语言-动作模型）

在 VLM 基础上增加运动控制，解决机器人运动轨迹决策问题。主要代表是谷歌的 RT-H 模型，学习语言和运动，并使用视觉上下文，通过利用语言-视觉-动作结合的多任务数据集学习更强大和灵活的动作策略。

四、多模态大模型

实现对物理世界环境的多面感知，是未来的主要研究方向。主要代表是麻省理工、IBM 等共同研究的 MultiPLY 模型，将视觉、触觉、语音等 3D 环境的各类特征作为输入，以形成场景外观的初步印象，并通过多视图关联将印象中的输出融合到 3D，终得到以对象为中心的场景特征。

此外，类脑智能和脑机接口等创新技术也为人形机器人“大脑”的解决方案带来无限可能。类脑智能是人工智能技术的进一步延伸，是通过对人脑生物结构和思维方式进行直接模拟，使智能体能够像人脑一样准确G效处理多场景下的复杂任务，是未来有望代替大模型的新技术路线。脑机接口是在人脑与外部设备间建立连接通路的技术，实现人脑与外界设备的信息交换。未来有望基于脑机接口实现“大脑”的 “人+机”混合智能。

分类导航

== 资讯 ==

» 人形机器人运动控制:制约商业化落地
» 山东省机器人产业高质量发展行动计划
» 2025AI赋能教育：高考志愿填报
» 核电人形机器人的八点特性:高辐射耐
» 核电人形机器人专题报告[工业应用场
» 机器人的大脑在手眼脑协同中发挥怎么
» 机器人的“手眼脑”协同有哪些瓶颈和
» “手眼脑”协同对机器人上肢操作能力
» 机械臂+灵巧手当前能够完成哪些工作
» 具身智能——决定机器人泛化能力天
» 服务机器人兼容方面检测：电磁兼容与
» 服务机器人可信方面检测：数据可信、
» 服务机器人可靠方面检测:环境适应性
» AI工具深度测评与选型指南V1-5
» 2025基于DeepSeek的详细