从技术路线上看,目前基于大模型的“大脑”技术路线正处在并行探索阶段,并逐渐向端到端的大模型演进。
现阶段主要是 4 条技术路线:
一、 LLM(大语言模型)+VFM(视觉基础模型)
实现人机语言交互、任务理解、推理和规划,目前最为成熟。主要代表是谷歌的
SayCan 模型,通过预训练技能的价值函数对齐(Grounds)大语言模
型或者通过价值函数的训练使大语言模型对用户指令进行推理分解
获得任务步骤。
二、 VLM(视觉-语言模型)
弥合语言与视觉理解间的差距,让机器人实现更准确的任务规划和决策。主要代表是清华大学的 CoPa
模型,利用嵌入在基础模型(比如视觉语言模型的代表 GPT-4V)中
的常识知识为开放世界机器人操控生成一系列的自由度末端执行器
姿势,生成的操控任务分为任务导向抓取和感知运动规划。
三、 VLA
(视觉-语言-动作模型)
在 VLM 基础上增加运动控制,解决机器人运动轨迹决策问题。主要代表是谷歌的 RT-H 模型,学习语言和运动,
并使用视觉上下文,通过利用语言-视觉-动作结合的多任务数据集学
习更强大和灵活的动作策略。
四、多模态大模型
实现对物理世界环
境的全面感知,是未来的主要研究方向。主要代表是麻省理工、IBM
等共同研究的 MultiPLY 模型,将视觉、触觉、语音等 3D 环境的各类
特征作为输入,以形成场景外观的初步印象,并通过多视图关联将印
象中的输出融合到 3D,最终得到以对象为中心的场景特征。
此外,类脑智能和脑机接口等创新技术也为人形机器人“大脑”的
解决方案带来无限可能。类脑智能是人工智能技术的进一步延伸,是
通过对人脑生物结构和思维方式进行直接模拟,使智能体能够像人脑
一样精确高效处理多场景下的复杂任务,是未来有望代替大模型的新
技术路线。脑机接口是在人脑与外部设备间建立连接通路的技术,实
现人脑与外界设备的信息交换。未来有望基于脑机接口实现“大脑”的
“人+机”混合智能。
迎宾服务机器人需要整合视觉,听觉,触觉等多种感知模态,使机器人在复杂场景中做出更准确的决策;结合听觉和触觉信息,机器人可以更好地理解人类的指令和情感状态
基于模型的小脑技术路线控制方法有ZMP判据及预观控制,混杂零动态规划方法,虚拟模型解耦控制;基于学习的小脑技术路线控制方法有强化学习和模仿学习
展厅迎宾机器人的“小脑”核心技术正在从基于模型的控制方法向基于学习的控制方法演进,视觉-语言模型为机器人学习复杂技能提供了新的范式,有很强的泛化能力,能够根据不同的指令组合技能
机器人机械手有多个关节和多个自由度,具有很高的灵活性;配置了必要的传感器,可以精确控制机械手的操作;微小的外形尺寸使得机械手具有很高的操作精度
AI陪伴机器人在外观设计具备人类相似特征;在行为模式上模仿人类的行为,具备手眼协调,动态足控制能力;在各个领域的实际应用和用途,协助人类完成各种复杂任务
多模态感知技术让机器人具备类似人类五感的多模态智能感知能力;通过表情识别、语音情感分析等技术,让机器人感知人 类情绪并做出相应情感回应,增加亲和力和互动性
迎宾机器人需要具备与人类实时的任务级交互能力,快速理解人类通过语言,手势等方式给出的指令,有效执行;迎宾机器人需要能够通过视觉、听觉、触觉等多种感官获取信息
LDS SLAM 与 VSLAM 各有优劣,二者相容或成为行业主流发展方向之一;LDS SLAM 技术可视范围广,地图精度更高;VSLAM技术成本更低,寿命长,不易损
将重复率较高,工作内容较枯燥的工作交给服务机器人去做,可以使员工把更多的精力集中在服务客户上面,并可以降低一定成本,可降低总成本的17%
送餐已经可以通过机器人自主完成,员工可以把节省出来的时间和精力,投入在给客人庆生,涮菜涮肉等服务水平的提升上,机器人真正带来了降本增效
送餐已经可以通过机器人自主完成,员工可以把节省出来的时间和精力,投入在给客人庆生,涮菜涮肉等服务水平的提升上,机器人真正带来了降本增效
医疗机器人已成为智慧养老模式下的首选养老设备,医院中有繁杂的配送药物或餐食的任务,并且需在特定时间准时送达
服务机器人可以使人工成本降低50%左右;酒店场景中服务机器人便于给客户打造私密空间;旅游场景中服务机器人可以给出完全透明且准确的信息
酒店引导机器人以机器人硬件为载体,依托云平台强大的智能服务技术,引入智能语音交互系统,大数据分析系统,智能视觉识别系统,真正实现“能听,会说,能思考,会判断,看得见,认得出”的智能化服务
特斯拉量产后预计售价 2 万美元;优必选Walker价格200 万; Ameca价格13.3 万美元; Digit价格25 万美元;Atlas价格190 万美元;Asimo价格近 300 万美元
创泽知名的机器人推荐27寸超大屏智能服务机器人,用户交互更便捷;接待讲解,引导跟随,业务咨询,宣传巡逻等功能,提高业务效率,提升企业形象
智慧图书馆服务机器人要比人类方便的多,可以随意寻求帮助,不用尴尬,不用不好意思,会给你讲笑话,逗你开心,帮你答疑解惑,排除你的烦恼
机场指路机器人通过语音和屏幕终端与旅客进行交流互动,获取航班信息,服务流程,机场设施等各类信息,能准确定位,为旅客提出最优路径指引