当前位置：首页 > 机器人知识 > 机器人多模态视觉语言导航技术解析

机器人多模态视觉语言导航技术解析

来源：算法邦时间：2022/4/21

计算机视觉（CV）和自然语言处理（NLP）早先是两个较为d立的研究L域。CV 重点关注如何用计算机代替人眼对目标完成识别、跟踪、测量等任务，对图像进行处理；NLP 则研究计算机如何处理、运用自然语言，包括语言生成、问答、对话等任务。近年来，以深度神经网络为代表的机器学习和模式识别技术被广泛应用于 CV 和 NLP L域，取得了目前先进的效果。

近年来，研究者们试图将动作控制也引入到「视觉-语言」任务的框架中。吴琦将此类任务命名为 V3A（Vision, Ask, Answer, Act），在给定视觉输入后，我们希望机器能够提出问题、回答问题、并通过和人以及机器之间的语言交流执行某些动作。

例如，「Vision+Ask」的任务包含视觉问题生成、根据问题生成查询、图像描述等；「Vision+Answer」的任务包含视觉问答、视觉对话等；「Vision+Act」的任务包含指称表达、视觉对齐（visual grounding）、语言引导的视觉导航、具身视觉问答、具身指称表达等。

分类导航

== 资讯 ==

» 2025年度重庆市人工智能应用场景
» 2026具身智能操作系统技术白皮书
» 2026十大央国企AI+场景标杆案
» 四足机器人场景应用发展蓝皮书-市场
» 迎宾机器人的位置传感器：电位器、光
» 人形机器人上岗餐饮酒店服务场景（如
» 智能清洁机器人在商业综合体清洁场景
» 中国人工智能系列白皮书—-具身智能
» 腰部外骨骼机器人,20kg的攀登与
» 室内安防巡检机器人的数据中心巡检场
» 光伏机器人清洁太阳能板的七大优点：
» 2025上海智能机器人百大场景案例
» 具身大模型：人形机器人智慧内核,主
» 具身智能数据行业研究白皮书2026
» 2025上海市“AI+制造”发展白