|
|
当前位置:首页 > 迎宾机器人 > 智能迎宾服务机器人大模型多技术路线:四条(LLM,VLM,VLA,多模态大模型) |
智能迎宾服务机器人大模型多技术路线:四条(LLM,VLM,VLA,多模态大模型) |
来源:创泽机器人 时间:2025/1/3 |
从技术路线上看,目前基于大模型的“大脑”技术路线正处在并行探索阶段,并逐渐向端到端的大模型演进。 现阶段主要是 4 条技术路线: 一、 LLM(大语言模型)+VFM(视觉基础模型)实现人机语言交互、任务理解、推理和规划,目前为成熟。主要代表是谷歌的 SayCan 模型,通过预训练技能的价值函数对齐(Grounds)大语言模 型或者通过价值函数的训练使大语言模型对用户指令进行推理分解 获得任务步骤。 二、 VLM(视觉-语言模型)弥合语言与视觉理解间的差距,让机器人实现更准确的任务规划和决策。主要代表是清华大学的 CoPa 模型,利用嵌入在基础模型(比如视觉语言模型的代表 GPT-4V)中 的常识知识为开放世界机器人操控生成一系列的自由度末端执行器 姿势,生成的操控任务分为任务导向抓取和感知运动规划。 三、 VLA (视觉-语言-动作模型)在 VLM 基础上增加运动控制,解决机器人运动轨迹决策问题。主要代表是谷歌的 RT-H 模型,学习语言和运动, 并使用视觉上下文,通过利用语言-视觉-动作结合的多任务数据集学 习更强大和灵活的动作策略。 四、多模态大模型实现对物理世界环 境的多面感知,是未来的主要研究方向。主要代表是麻省理工、IBM 等共同研究的 MultiPLY 模型,将视觉、触觉、语音等 3D 环境的各类 特征作为输入,以形成场景外观的初步印象,并通过多视图关联将印 象中的输出融合到 3D,终得到以对象为中心的场景特征。
此外,类脑智能和脑机接口等创新技术也为人形机器人“大脑”的 解决方案带来无限可能。类脑智能是人工智能技术的进一步延伸,是 通过对人脑生物结构和思维方式进行直接模拟,使智能体能够像人脑 一样准确G效处理多场景下的复杂任务,是未来有望代替大模型的新 技术路线。脑机接口是在人脑与外部设备间建立连接通路的技术,实 现人脑与外界设备的信息交换。未来有望基于脑机接口实现“大脑”的 “人+机”混合智能。
|
相关推荐 |
»
迎宾服务机器人的大脑发展方向:智能化和自主化发展
» 展厅迎宾讲解机器人的小脑技术路线:两种(基于模型、基于学习) » 展厅迎宾机器人小脑技术的演进:视觉-语言模型进行模仿学习 » 新一代展厅指引服务机器人的机械手的特点:多个关节和多个自由度,具有很高的灵活性 » AI陪伴机器人-自然交互的陪伴机器人 » AI智能交互陪伴机器人核心技术:外观设计、情感计算、表情控制 » AI迎宾接待机器人的技术壁垒之情感智能 » 迎宾机器人的大脑需要具备的能力:实时交互 多模态感知 » 服务机器人的GPS-SLAM系统 » 餐饮酒店标准化高,服务机器人将体现独特的优势实现成本优化 » 服务器人提供助力点,解决餐饮快消业的企业端和顾客端痛点 » 仅部分企业部署了服务机器人,存在巨大的增量空间 » 服务器人提供助力点,解决医疗服务业的企业端和顾客端痛点 » 服务器人提供助力点,解决酒店旅游业的企业端和顾客端痛点 » 酒店引导机器人-创泽酒店引导机器人24H不间断服务 » 人形迎宾机器人的参数和价格 » 创泽知名的机器人系列推荐-智能服务机器人 |
![]() ![]() ![]() |
![]() |
|
|
版权所有 © 创泽智能机器人集团股份有限公司 中国运营中心:北京·清华科技园C座五楼 生产研发基地:山东日照太原路71号 电话:4008-128-728 |