计算机视觉(CV)和自然语言处理(NLP)早先是两个较为d立的研究L域。CV 重点关注如何用计算机代替人眼对目标完成识别、跟踪、测量等任务,对图像进行处理;NLP 则研究计算机如何处理、运用自然语言,包括语言生成、问答、对话等任务。近年来,以深度神经网络为代表的机器学习和模式识别技术被广泛应用于 CV 和 NLP L域,取得了目前先进的效果。
近年来,研究者们试图将动作控制也引入到「视觉-语言」任务的框架中。吴琦将此类任务命名为 V3A(Vision, Ask, Answer, Act),在给定视觉输入后,我们希望机器能够提出问题、回答问题、并通过和人以及机器之间的语言交流执行某些动作。
例如,「Vision+Ask」的任务包含视觉问题生成、根据问题生成查询、图像描述等;「Vision+Answer」的任务包含视觉问答、视觉对话等;「Vision+Act」的任务包含指称表达、视觉对齐(visual grounding)、语言引导的视觉导航、具身视觉问答、具身指称表达等。
| 资料获取 | |
| 服务机器人在展馆迎宾讲解 |
|
| 新闻资讯 | |
| == 资讯 == | |
| » 2025年保姆机器人行业发展趋势报告-四 | |
| » 2025年机器人产业的变革与展望白皮书- | |
| » 2025养老机器人行业研究报告-市场规模 | |
| » OpenAI的软硬件生态布局与进展-硬件 | |
| » 2025年通向AGI之路-全球人工智能展 | |
| » 中国联通《人工智能行业安全治理白皮书(2 | |
| » 浙江省 “人工智能+建筑业”创新应用案例 | |
| » 机器人柔性关节的作用:自由度,防撞击、防 | |
| » 柔性机器人的研究目的:科学的目的,工程的 | |
| » 两轮机器人的运动原理:4个自由度:2个平 | |
| » 两轮机器人的基本构造:机体,底盘和轮系 | |
| » 机器龟的结构制作材料:底盘,执行器,传感 | |
| » 机器人的避障功能原理:接触式传感器触发的 | |
| » 4足机器人的制作材料:微型减速电机,车条 | |
| » 机器人CPG(中枢模式发生器)的制作材料 | |
| == 机器人推荐 == | |
服务机器人(迎宾、讲解、导诊...) |
|
智能消毒机器人 |
|
机器人底盘 |
![]() |