|
|
当前位置:首页 > 机器人知识 > 机器人多模态视觉语言导航技术解析 |
机器人多模态视觉语言导航技术解析 |
来源:算法邦 时间:2022/4/21 |
计算机视觉(CV)和自然语言处理(NLP)早先是两个较为d立的研究L域。CV 重点关注如何用计算机代替人眼对目标完成识别、跟踪、测量等任务,对图像进行处理;NLP 则研究计算机如何处理、运用自然语言,包括语言生成、问答、对话等任务。近年来,以深度神经网络为代表的机器学习和模式识别技术被广泛应用于 CV 和 NLP L域,取得了目前先进的效果。 近年来,研究者们试图将动作控制也引入到「视觉-语言」任务的框架中。吴琦将此类任务命名为 V3A(Vision, Ask, Answer, Act),在给定视觉输入后,我们希望机器能够提出问题、回答问题、并通过和人以及机器之间的语言交流执行某些动作。 例如,「Vision+Ask」的任务包含视觉问题生成、根据问题生成查询、图像描述等;「Vision+Answer」的任务包含视觉问答、视觉对话等;「Vision+Act」的任务包含指称表达、视觉对齐(visual grounding)、语言引导的视觉导航、具身视觉问答、具身指称表达等。
|
相关推荐 |
»
机器学习框架应用报告:联邦学习场景应用研究报告2022
» Deep Tech:2022先进计算七大趋势 » 基于电阻抗和声学成像的仿生机器皮肤 » 中国机器人分为工业、服务、特种机器人三大类 » 机器人整体电子电气结构以电控系统为基础 » 日本机器人发展可分为四个主要阶段 » 日本著名机器人企业及相关产品 » 德国著名机器人企业及相关产品 » 日德著名机器人上游企业及相关产品 » AI智能机器人可以分成五大部分 » AI智能机器人在完成任务时需要经历三个层次 » 特斯拉人形机器人 Optimus 的驱动方案分析 |
![]() ![]() ![]() |
![]() |
|
|
版权所有 © 创泽智能机器人集团股份有限公司 中国运营中心:北京·清华科技园C座五楼 生产研发基地:山东日照太原路71号 电话:4008-128-728 |