最佳学生论文官方解读! CVPR 2019 (最佳学生论文奖)

作为人类感知世界、进行交互的两大最重要的方式,视觉和语言一直是人工智能领域研究的重点。近年来,将视觉与语言信息进行融合和转化成为了一个活跃的研究方向,许多让人眼前一亮的工作也随之产生。微软研究院在文本中,对其获得 CVPR 2019 最佳学生论文的工作进行了技术解析,非常值得一读!

人类如何进行高效的沟通呢?人们普遍认为,人类用来交流的词语(例如「狗」)会引发对物理概念的相似理解。实际上,我们对于狗的物理外形、发出的声音、行走或奔跑的方式等都有共同的概念。换句话说,自然语言与人类与他们所处的环境之间的交互方式息息相关。因此,通过将自然语言基标对准到我们所处环境的各种模态中(例如图像、动作、物体、声音等),可以产生有意义的行为。心理学领域最新的研究成果表明,婴儿最可能学会的第一个单词是基于其视觉体验的,这为婴儿语言学习问题的新理论奠定了基础。那么现在问题来了:我们是否能够构建出可以像人类一样,学着在不同模态下进行沟通的智能体?

在各种多模态学习任务中,视觉-语言导航(VLN)是一类十分有趣也极具挑战性的任务。这是因为,为了能够以遵循自然语言指令的方式对真实环境中的智能体进行导航,我们需要执行两层基标对准:将指令基标对准到局部空间视觉场景中,然后将指令与全局时序视觉轨迹相匹配。最近,深度神经网络领域的工作重点关注于通过在视觉上基标对准语言学习任务,来连通视觉和自然语言理解的桥梁,从而构建智能体,这要求研究人员具备机器学习、计算机视觉、自然语言处理以及其它领域的专业知识。

对于这种基标对准任务而言,深度学习技术非常具有使用前景,这是因为使用深度学习技术能够使得同时从计算机视觉和语言的低级感知数据中学习到高级语义特征成为可能。此外,深度学习模型也使我们可以将不同模态的信息融合到同一种表征中。基础语言学习任务还要求与某个外部环境进行交互;因此,强化学习为我们提供了一种优雅的框架,能够基于视觉层面来完成对话任务规划。所有这些研究进展使得解决具有挑战性的 VLN 任务在技术上可行。

CVPR 2019 最佳学生官方解读!

图 1:视觉语言导航(VLN)任务示意图。图中展示了指令、局部视觉场景,以及从俯视视角描绘的全局轨迹。智能体并不能获取俯视图信息。路径 A 是遵循指令得到的正确展示路径。路径 B 和 C 代表智能体执行出的两条路径。

微软研究院的视觉和语言研究人员一直致力于研究对自然语言和视觉交互进行基标对准的各种不同的方法,并一直在应对 VLN 所特有的挑战。CVPR 2019 中,由微软 AI 研究院的 Qiuyuan Huang、Asli Celikyilmaz、Lei Zhang、Jianfeng Gao,加州大学圣巴巴拉分校的王鑫、Yuan-Feng Wang、王威廉,以及杜克大学的 Dinghan Shen 共同完成的工作「Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation」获得了最佳学生论文,微软的 VLN 研究团队在本论文中探索了 解决 VLN 领域这三个关键挑战的方案:跨模态基标对准(cross-modal grounding)、不适定反馈(ill-posed feedback)以及泛化(generalization)问题 。不仅如此,这项工作所取得的好结果非常激动人心!

其中的一个挑战是,根据视觉图像和自然语言指令进行推理。如图 1 所示,为了到达目的地(用黄色圆圈高亮表示),智能体需要将用单词序列表征的指令对标到局部的视觉场景中,并且将指令与全局时序空间中的视觉轨迹匹配起来。为了解决这个问题,我们提出了一种新的强化跨模态匹配(RCM)方法,它可以通过强化学习在局部和全局进行跨模态基础标对。

如图 2a 所示,我们的研究团队设计了一个带有两种奖励函数的推理导航器。外部奖励会指导智能体学习文本指令和局部视觉场景之间的跨模态基础对标,从而使智能体可以推测出要关注的子指令以及相应的视觉内容。同时,从全局的角度来看,内部奖励和匹配评价器一起,通过根据执行的路径重建原始指令的概率来评估一个执行路径,我们将其称为「循环重建」奖励。

CVPR 2019 最佳学生官方解读!

图 2:用于将自然语言指令与视觉环境对标的强化跨模态匹配框架。

该内部奖励对于这种 VLN 任务尤为重要;如何训练这些智能体,以及从它们的环境中获取反馈是VLN 研究人员面临的重大挑战。在训练时,学习遵循专家展示需要频繁的反馈,从而使智能体可以保持在正确的轨迹上,并且按时到达目的地。然而,在 VLN 任务中,反馈是非常粗糙的,因为只有当智能体到达了某个目标位置后才会提供「成功」的反馈,完全没有考虑智能体是否遵循了指令(如图 1 中的路径 A 所示),或者是按照随机的路径到达了目的地(如图 1 中路径 C 所示)。如果智能体稍微比预计时间停止得早了一些(如图 1 中的路径 B 所示),即使与指令相匹配的「好」轨迹也可能被认为是「不成功」的。这样的话,不适定反馈可能会与最优策略学习的结果不符。

如图 2a 和 2b 所示,我们提出通过局部测量一个循环重建奖励来评价智能体遵循指令的能力;这种机制能够提供一种细粒度的内部奖励信号,促使智能体更好地理解语言输入,并且惩罚与指令不匹配的轨迹。举例而言,如图 1 所示,使用我们提出的奖励,路径 B 就会被认为优于路径 C。

使用匹配评价器提供的内部奖励以及环境提供外部奖励进行训练,我们的推理导航器会学着将自然语言指令同时在局部空间视觉场景和全局时序视觉轨迹进行基标对准。在一个 VLN 对比基准数据集上的评估结果显示,我们的 RCM 模型在 SPL(通过逆路径长度加权的成功率)指标上显著优于之前的方法,提升高达 10%,实现了目前最佳的模型性能。

当处于训练时未曾见过的环境中时,VLN 智能体的性能会显著降低。为了缩小这种差距,我们提出了一种通过自监督学习探索未见过的环境的有效解决方案。通过这种新技术,我们可以促进终身学习以及对新环境的适应。例如,家用机器人可以探索一个新的房子,然后通过学习之前的经验迭代式地改进导航策略。受到这一事实的启发,我们引入了一种自监督模仿学习机制(SIL)来支持智能体对未见过的环境(没有带标签的数据)进行探索。其中,智能体会学习自己过去积极的经验。

具体而言,在我们的框架中,导航器将执行多次「roll-out」策略,其中好的轨迹(由匹配评价器确定)将会被保存在经验回放缓存中,然后被导航器用于模仿。通过这种方式,当行器可以对其最佳行为进行近似,从而得到更好地策略。我们能够证明 SIL 可以近似得到一个更好、更高效的策略,这极大地缩小了训练时见过和未曾见过的环境之间的成功率的性能差异(从 30.7% 降低到 11.7%)。

非常荣幸,这篇论文被选为了 CVPR 2019 的最佳学生论文。用 CVPR 2019 最佳论文奖组委会的话来说,就是「视觉导航是计算机视觉的一个重要领域,而这篇论文在视觉-语言导航方面取得了进展。在该领域之前工作的基础上,该论文在跨模态环境下基于自模仿学习所取得的成果令人激动!」热烈祝贺这篇论的作者们:来自加州大学圣巴巴拉分校的王鑫、Yuan-Fang Wang、王威廉,来自微软 AI 研究院的 Qiuyuan Huang、Asli Celikyilmaz、Lei Zhang、Jianfeng Gao, 以及来自杜克大学的 Dinghan Shen。其中,王鑫对这一工作所做的贡献是其在微软研究院实习期间完成的。

在另外一篇 CVPR 2019 论文「Tactical Rewind: Self-Correction via Backtracking in Vision-and-Language Navigation」(由微软 AI 研究院的 Xiujun Li和 Jianfeng Gao,华盛顿大学的 Liyiming Ke、Yonatan Bisk、Ari Holtzman、Yejin Choi、Siddhartha Srinivasa,以及微软 Dynamics AI 的 Zhe Gan 和 Jingjing Liu 共同完成)中,我们改进了 VLN 智能体的搜索方法,提出了一个被称为「快速导航器」(Fast Navigator)的动作编码的通用框架,使智能体能够基于局部和全局的信息比较长度不同的部分路径,并且在出错时进行回溯。

我们注意到,VLN 与文本生成任务有一些相似之处,所有现有的工作可以被分为两类:

总的来说,当前的 VLN 模型面临着两大核心问题:首先,我们应该回溯吗?如果我们应该回溯,那么我们应该回溯到哪一步呢?其次,我们应该在何时停止搜索?

为了使智能体能够在出错时进行回溯,我们将搜索与神经编码结合了起来,从而使得智能体可以基于局部和全局信息比较长度不同的部分路径,然后在发现错误时进行回溯。为了确定我们是否应该停止搜索,我们使用了一个融合函数,该函数会将局部动作知识和历史转化为一个进度的估计值,从而通过对我们之前的动作与给定的文本指令的匹配程度建模来评估智能体的进度。

via

原创文章,未经授权禁止转载。详情见 转载须知 。

CVPR 2019 最佳学生官方解读!


本文地址: https://www.gpxz.com/article/faf31c57be481626cb9a.html
全局中部横幅
全局中部横幅
工业级PON

深圳市冠联通信技术有限公司主营:工业级PON、工业级ONU、OLT光猫设备等,在惠州建有3.5万平方米的现代化光纤通讯产品生产基地,经过十几年的持续发展,已成为国内光通讯行业产品系列全、综合实力强的高新科技企业。

成都集装箱方舱厂家

四川卡丰科技有限公司是一家专业从事成都集装箱方舱,成都住人集装箱,成都集装箱货柜定制生产与成都集装箱酒店,成都集装箱办公室销售批发以及成都设备集装箱,成都环保移动厕所,成都治安岗亭安装施工的综合性企业.公司拥有一批精干的管理人员和一支高素质的专业技术队伍,精良齐全的生产设备,上乘的产品质量,周到的售后服务.欢迎新老客户来电咨询!

杭州装修公司

铭品装饰2002年成立是杭州装修公司排名前十品牌、浙江口碑好的知名装饰公司。主营类别:别墅装修、新房老房装修,毛坯房二手房装修等类型的装修设计施工服务。杭州装修公司哪家好?铭品装饰免费提供装修报价。

广东不锈钢玻璃防火门

广东固盾防火门生产厂家全国销售电话:18075925566专业生产销售钢质防火门,不锈钢防火玻璃门,不锈钢玻璃防火门,不锈钢防火门,KTV不锈钢防火门,电影院隔音防火门,防火卷帘门,木质防火门芯,防火窗.固盾防火门产品通过国家防火门3C强制性认证。公司具有一批优秀防火门设计师团队,采用防火门自动生产线流水作业,以优惠的防火门价格,过硬的防火门质量保证防火门通过消防验收标准赢得大批客户好评。

Carling

CarlingGlobal是一个为危机公关、舆情管理、SEO推广、网络运营提供优质解决方案的全能型平台!同时,平台大量分享财经信息,让大家足不出户,了解财经世界!

重庆康邦机电设备有限公司

重庆康邦是柴油发电机组设计、供应、调试、维护、服务于一体的电源系统解决方案提供商,可根据用户需求定制个性化整体电源解决方案。公司拥有完善的生产条件,先进的测试设备以及具有很强凝聚力的研发、技术、生产及服务团队。

厂房出租

在线厂房网是中西部地区免费厂房信息发布平台,业务涉及厂房出租、出售,个人厂房出租、出售,钢结构厂房出租、出售,仓库出售以及协助环评、排污许可办理,同时汇聚大量的工业园厂房出租、出售信息,其中包括工业园出租、出售以及厂房装修、升级改造等,为业主提供免费发布求租、招租、转让信息提供方便,信息量覆盖30个省市地区,真正实现一指观天下!

ZPAY支付

ZPAY支付作为支付宝微信系统服务商ISV,专业为个人可用的支付宝微信支付接口,支持当面付等支付方式,资金由官方D+1结算自动下发个人银行卡

逍遥导航网

逍遥导航网(4984.cn)是一个收录的导航网站,本站包含了各种官网,各种网站,各种资源,在这里你想找的网站,在这里都可以找到

万年历

择吉黄历网(www.jzyydsa.com)在线免费查询黄历,吉日吉时,在线择吉日免费查询,今日农历黄历查询,今天什么日子,今天农历几月几日,今天是什么日子老黄历在线免费查询。

产业要闻

52PK产业要闻,为您提供游戏行业新鲜资讯,点评圈内实事动态.

全局底部横幅