CVPR 2019 最佳学生论文官方解读!

雷锋我想昨天分享

雷锋网络人工智能技术评论:作为人类感知世界和互动的两个最重要的方式,视觉和语言一直是人工智能领域研究的重点。近年来,视觉和语言信息的整合和转化已成为一个活跃的研究方向,也出现了许多人的光明工作。在文中,微软研究院对获得最佳学生论文2019年的CVPR进行了技术分析,值得一读!

人类如何有效沟通?人们普遍认为,人类用来交流的词语(如“狗”)可以导致对物理概念的类似理解。事实上,我们对狗的身体形状,它所发出的声音,它走路或奔跑的方式都有一个共同的概念。换句话说,自然语言与人类与其所处环境的互动方式密切相关。因此,通过将自然语言基准与我们环境中的各种模态(例如图像,运动,对象,声音等)对齐,可以产生有意义的行为。心理学领域的最新研究表明,婴儿最有可能学习的第一个词是基于他们的视觉经验,这为婴儿语言学习问题的新理论奠定了基础。所以现在的问题是:我们能否建立一个可以学习以人类不同模式进行交流的代理人?

在各种多模式学习任务中,视觉语言导航(VLN)是一项非常有趣且具有挑战性的任务。这是因为,为了能够以遵循自然语言指令的方式在真实环境中导航代理,我们需要执行两层基本对齐:将命令库与本地空间可视场景对齐,然后全局定时视觉轨迹匹配。最近,深度神经网络领域的工作重点是通过将视觉学习与语言学习任务联系起来来构建代理,以弥合视觉和自然语言理解之间的差距,这需要研究人员具有机器学习,计算机视觉和自然。语言处理和其他领域的专业知识。

深度学习技术对于此类基准测试任务非常有前途,因为使用深度学习技术可以同时学习计算机视觉和语言中低级感官数据的高级语义特征。此外,深度学习模型允许我们将不同的模态信息融合到相同的表示中。基础语言学习任务还需要与外部环境进行交互;因此,强化学习为我们提供了一个优雅的框架,用于基于视觉方面可视化对话任务。所有这些进步使得解决具有挑战性的VLN任务在技术上可行。

image.php?url=0Mj0UCFd7Y

图1:可视语言导航(VLN)任务的示意图。该图显示了从顶视图绘制的指令,局部视觉场景和全局轨迹。代理无法获取顶视图信息。路径A是遵循说明的正确演示路径。路径B和C表示代理执行的两个路径。

Microsoft Research的视觉和语言研究人员一直在研究自然语言和视觉交互的基本对齐的不同方法,并且一直在解决VLN独有的挑战。 CVPR 2019由黄秋元,Asli Celikyilmaz,张磊,微软人工智能研究所的高剑峰,王昕,王元峰,加州大学圣塔芭芭拉分校王威廉和杜克大学沉鼎汉完成。 “视觉语言导航的强化跨模式匹配和自我监督模仿学习”的作品获得了最佳学生论文。微软的VLN研究团队探讨了VLN领域的三个关键挑战:基于状态的跨模式交叉模式接地,不适定反馈和泛化问题。不仅如此,这项工作的良好结果非常令人兴奋!

论文评论地址:

其中一个挑战是基于视觉图像和自然语言指令进行推理。如图1所示,为了到达目的地(用黄色圆圈突出显示),代理需要将由单词序列表示的指令对标记到本地视觉场景中,并将指令与全局中的视觉轨迹相匹配。时空。站起来。为了解决这个问题,我们提出了一种增强的跨模态匹配(RCM)的新方法,它可以通过强化学习在局部和全局上进行跨模态基础配对。

如图2a所示,我们的研究团队设计了一个具有两个奖励功能的推理导航器。外部奖励引导代理学习文本指令和本地视觉场景之间的跨模式基础对齐,以便代理可以推断要遵循的子指令和相应的可视内容。同时,从全局的角度来看,内部奖励和匹配评估器通过基于执行的路径重建原始指令的概率来评估执行路径,我们称之为“循环重建”奖励。

image.php?url=0Mj0UCyPYy

图2:增强的跨模式匹配框架,用于将自然语言指令与可视化环境进行基准测试。

这种内部奖励对于这种VLN任务尤为重要;如何训练这些药剂并从环境中获得反馈是VLN研究人员面临的主要挑战。在培训期间,学习遵循专家演示需要经常反馈,以便代理能够保持正确的轨迹并准时到达目的地。但是,在VLN任务中,反馈非常粗糙,因为“成功”反馈仅在代理到达某个目标位置时提供,并且不考虑代理是否遵循指令(例如图1中的路径) 。 A显示),或根据随机路径到达目的地(如图1中的路径C所示)。如果代理程序稍早于预期时间停止(如图1中的路径B所示),则即使与命令匹配的“好”轨道也可能被视为“不成功”。在这种情况下,不适定的反馈可能与最佳策略学习的结果不匹配。

如图2a和2b所示,我们建议通过局部测量循环重建奖励来评估代理遵循指令的能力;这种机制可以提供细粒度的内部奖励信号,使代理人能够更好地理解语言输入。并惩罚与指令不匹配的轨迹。例如,如图1所示,使用我们的奖励,路径B被认为优于路径C.

使用由匹配评估者和环境提供的内部奖励来为训练提供外部奖励,我们的推理导航器学习在本地空间视觉场景和全球时间序列视觉轨迹中同时对齐自然语言指令。对VLN基准数据集的评估结果表明,我们的RCM模型明显优于SPL(反向路径长度连续加权)中的先前方法,高达10%,实现了当今可用的最佳模型。性能。

当在训练之前未见过的环境中时,VLN剂的性能显着降低。为了缩小这一差距,我们提出了一种有效的解决方案,通过自我监督学习来探索看不见的环境。通过这项新技术,我们可以促进终身学习,适应新环境。例如,家庭机器人可以探索新房子,然后通过学习先前的经验迭代地改进导航策略。受此事实的启发,我们引入了一种自我监督的模拟学习机制(SIL),使代理能够探索看不见的环境(没有标记数据)。其中,智能机构将从过去的积极经验中学习。

具体来说,在我们的框架中,导航器将执行多个“推出”策略,其中良好的轨迹(由匹配评估器确定)将保存在体验回放缓存中,然后由导航器用于模拟。通过这种方式,线可以近似其最佳行为,从而产生更好的策略。我们可以证明SIL可以接近更好,更有效的策略,这大大降低了培训前从未见过的成功与环境之间的性能差异(从30.7%到11.7%)。

能够将本文选为年CVPR最佳学生论文,我感到非常荣幸。用CVPR 2019最佳论文奖组委会的话来说,“视觉导航是计算机视觉的一个重要领域,本文已经做了视觉语言导航的进展。基于此领域的前期工作,基于跨模式环境中自我学习的论文结果令人兴奋!“恭喜本文作者:王昕,王元芳,王威廉大学来自微软Qiuyuan Huang,Asli Celikyilmaz,张磊,来自AI研究所的Jianfeng Gao和来自杜克大学的Dinghan Shen的加州圣巴巴拉分校。其中,王欣对这项工作的贡献是在微软研究院实习期间完成的。

另一篇CVPR 2019论文“战视倒带:通过视觉和语言导航中的回溯自校正”(Xiujun Li和微软AI研究所的Jianfeng Gao,Liyiming Ke,Yonatan Bisk,Ari Holtzman,Yejin,华盛顿大学)Choi, Siddhartha Srinivasa,以及Microsoft Dynamics AI的Zhe Gan和Jingjing Liu,我们改进了VLN代理的搜索方法,并提出了一种称为“快速导航器”的通用动作代码。该框架使代理能够根据本地和全局信息比较不同长度的部分路径,并在发生错误时进行回溯。

论文评论地址:

我们注意到VLN与文本生成任务有一些相似之处,所有现有工作可分为两类:

贪婪搜索 - 在每个时间步骤做出决策时,代理只考虑本地信息,并且所有代理都有“暴露偏差”现象,这是序列生成任务中的典型问题。

光束搜索是另一个极端。代理使用“推出”策略生成多个轨道,然后选择最佳轨道。虽然这种方法提高了成功率,但其计算成本与轨道数成正比,而且这种成本可能是巨大的。有人在每个命令之前部署一个在家中重复100次导航的家用机器人是不可能的(即使它最终到达正确的位置)!

首先,我们应该回去吗?如果我们应该回去,我们应该回到哪一步?第二,什么时候应该停止搜索?

为了使代理能够在出错时回溯,我们将搜索与神经编码相结合,以便代理可以根据本地和全局信息比较不同长度的部分路径,然后在发现错误时进行回溯。为了确定我们是否应该停止搜索,我们使用融合函数将本地行动知识和历史转换为进度估计,以模拟我们先前的动作和给定的文本指令之间的匹配。评估代理商的进展。

通过雷锋网雷锋网络

雷锋网原创文章,禁止擅自复制。有关详细信息,请参阅重印说明。

收集报告投诉