当前位置:首页 > 机器人知识 > 机器人多模态视觉语言导航技术解析
 

机器人多模态视觉语言导航技术解析

来源:算法邦    时间:2022/4/21

计算机视觉(CV)和自然语言处理(NLP)早先是两个较为d立的研究L域。CV 重点关注如何用计算机代替人眼对目标完成识别、跟踪、测量等任务,对图像进行处理;NLP 则研究计算机如何处理、运用自然语言,包括语言生成、问答、对话等任务。近年来,以深度神经网络为代表的机器学习和模式识别技术被广泛应用于 CV 和 NLP L域,取得了目前先进的效果。

近年来,研究者们试图将动作控制也引入到「视觉-语言」任务的框架中。吴琦将此类任务命名为 V3A(Vision, Ask, Answer, Act),在给定视觉输入后,我们希望机器能够提出问题、回答问题、并通过和人以及机器之间的语言交流执行某些动作。

例如,「Vision+Ask」的任务包含视觉问题生成、根据问题生成查询、图像描述等;「Vision+Answer」的任务包含视觉问答、视觉对话等;「Vision+Act」的任务包含指称表达、视觉对齐(visual grounding)、语言引导的视觉导航、具身视觉问答、具身指称表达等。




 
 
 
相关推荐
» 机器学习框架应用报告:联邦学习场景应用研究报告2022
» Deep Tech:2022先进计算七大趋势
» 基于电阻抗和声学成像的仿生机器皮肤
» 中国机器人分为工业、服务、特种机器人三大类
» 机器人整体电子电气结构以电控系统为基础
» 日本机器人发展可分为四个主要阶段
» 日本著名机器人企业及相关产品
» 德国著名机器人企业及相关产品
» 日德著名机器人上游企业及相关产品
» AI智能机器人可以分成五大部分
» AI智能机器人在完成任务时需要经历三个层次
» 特斯拉人形机器人 Optimus 的驱动方案分析
 
 
 
  » 联系我们
X 关闭  
 
网站首页
关于创泽 公司简介   资质荣誉   企业文化
新闻资讯 公司新闻 [机器人新闻 董事长新闻 比赛与荣誉类]  行业动态
解决方案 商用服务机器人   陪护机器人   安防机器人   智能医疗机器人  党建机器人
服务支持 常见问题   下载
人才招聘 招聘信息   精彩瞬间
党群建设 党建活动   工会活动   其他活动
商务合作 招募支持   报名提交
联系我们 售后服务   留言咨询
   
   
 
联系我们  
北京·清华科技园C座五楼
山东省日照市开发区太原路71号

扫码关注微信公众号
版权所有 © 创泽智能机器人集团股份有限公司           中国运营中心:北京·清华科技园C座五楼       生产研发基地:山东日照太原路71号       电话:4008-128-728