最佳学生论文官方解读！ CVPR 2019 (最佳学生论文奖)

文章编号：43780 资讯动态 2024-12-09 视觉语言导航 CVPR 计算机视觉 2019 自然语言处理

作为人类感知世界、进行交互的两大最重要的方式，视觉和语言一直是人工智能领域研究的重点。近年来，将视觉与语言信息进行融合和转化成为了一个活跃的研究方向，许多让人眼前一亮的工作也随之产生。微软研究院在文本中，对其获得 CVPR 2019 最佳学生论文的工作进行了技术解析，非常值得一读！

人类如何进行高效的沟通呢？人们普遍认为，人类用来交流的词语（例如「狗」）会引发对物理概念的相似理解。实际上，我们对于狗的物理外形、发出的声音、行走或奔跑的方式等都有共同的概念。换句话说，自然语言与人类与他们所处的环境之间的交互方式息息相关。因此，通过将自然语言基标对准到我们所处环境的各种模态中（例如图像、动作、物体、声音等），可以产生有意义的行为。心理学领域最新的研究成果表明，婴儿最可能学会的第一个单词是基于其视觉体验的，这为婴儿语言学习问题的新理论奠定了基础。那么现在问题来了：我们是否能够构建出可以像人类一样，学着在不同模态下进行沟通的智能体？

在各种多模态学习任务中，视觉-语言导航（VLN）是一类十分有趣也极具挑战性的任务。这是因为，为了能够以遵循自然语言指令的方式对真实环境中的智能体进行导航，我们需要执行两层基标对准：将指令基标对准到局部空间视觉场景中，然后将指令与全局时序视觉轨迹相匹配。最近，深度神经网络领域的工作重点关注于通过在视觉上基标对准语言学习任务，来连通视觉和自然语言理解的桥梁，从而构建智能体，这要求研究人员具备机器学习、计算机视觉、自然语言处理以及其它领域的专业知识。

对于这种基标对准任务而言，深度学习技术非常具有使用前景，这是因为使用深度学习技术能够使得同时从计算机视觉和语言的低级感知数据中学习到高级语义特征成为可能。此外，深度学习模型也使我们可以将不同模态的信息融合到同一种表征中。基础语言学习任务还要求与某个外部环境进行交互；因此，强化学习为我们提供了一种优雅的框架，能够基于视觉层面来完成对话任务规划。所有这些研究进展使得解决具有挑战性的 VLN 任务在技术上可行。

CVPR 2019 最佳学生官方解读！

图 1：视觉语言导航（VLN）任务示意图。图中展示了指令、局部视觉场景，以及从俯视视角描绘的全局轨迹。智能体并不能获取俯视图信息。路径 A 是遵循指令得到的正确展示路径。路径 B 和 C 代表智能体执行出的两条路径。

微软研究院的视觉和语言研究人员一直致力于研究对自然语言和视觉交互进行基标对准的各种不同的方法，并一直在应对 VLN 所特有的挑战。CVPR 2019 中，由微软 AI 研究院的 Qiuyuan Huang、Asli Celikyilmaz、Lei Zhang、Jianfeng Gao，加州大学圣巴巴拉分校的王鑫、Yuan-Feng Wang、王威廉，以及杜克大学的 Dinghan Shen 共同完成的工作「Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation」获得了最佳学生论文，微软的 VLN 研究团队在本论文中探索了 解决 VLN 领域这三个关键挑战的方案：跨模态基标对准（cross-modal grounding）、不适定反馈（ill-posed feedback）以及泛化（generalization）问题 。不仅如此，这项工作所取得的好结果非常激动人心！

其中的一个挑战是，根据视觉图像和自然语言指令进行推理。如图 1 所示，为了到达目的地（用黄色圆圈高亮表示），智能体需要将用单词序列表征的指令对标到局部的视觉场景中，并且将指令与全局时序空间中的视觉轨迹匹配起来。为了解决这个问题，我们提出了一种新的强化跨模态匹配（RCM）方法，它可以通过强化学习在局部和全局进行跨模态基础标对。

如图 2a 所示，我们的研究团队设计了一个带有两种奖励函数的推理导航器。外部奖励会指导智能体学习文本指令和局部视觉场景之间的跨模态基础对标，从而使智能体可以推测出要关注的子指令以及相应的视觉内容。同时，从全局的角度来看，内部奖励和匹配评价器一起，通过根据执行的路径重建原始指令的概率来评估一个执行路径，我们将其称为「循环重建」奖励。

CVPR 2019 最佳学生官方解读！

图 2：用于将自然语言指令与视觉环境对标的强化跨模态匹配框架。

该内部奖励对于这种 VLN 任务尤为重要；如何训练这些智能体，以及从它们的环境中获取反馈是VLN 研究人员面临的重大挑战。在训练时，学习遵循专家展示需要频繁的反馈，从而使智能体可以保持在正确的轨迹上，并且按时到达目的地。然而，在 VLN 任务中，反馈是非常粗糙的，因为只有当智能体到达了某个目标位置后才会提供「成功」的反馈，完全没有考虑智能体是否遵循了指令（如图 1 中的路径 A 所示），或者是按照随机的路径到达了目的地（如图 1 中路径 C 所示）。如果智能体稍微比预计时间停止得早了一些（如图 1 中的路径 B 所示），即使与指令相匹配的「好」轨迹也可能被认为是「不成功」的。这样的话，不适定反馈可能会与最优策略学习的结果不符。

如图 2a 和 2b 所示，我们提出通过局部测量一个循环重建奖励来评价智能体遵循指令的能力；这种机制能够提供一种细粒度的内部奖励信号，促使智能体更好地理解语言输入，并且惩罚与指令不匹配的轨迹。举例而言，如图 1 所示，使用我们提出的奖励，路径 B 就会被认为优于路径 C。

使用匹配评价器提供的内部奖励以及环境提供外部奖励进行训练，我们的推理导航器会学着将自然语言指令同时在局部空间视觉场景和全局时序视觉轨迹进行基标对准。在一个 VLN 对比基准数据集上的评估结果显示，我们的 RCM 模型在 SPL（通过逆路径长度加权的成功率）指标上显著优于之前的方法，提升高达 10%，实现了目前最佳的模型性能。

当处于训练时未曾见过的环境中时，VLN 智能体的性能会显著降低。为了缩小这种差距，我们提出了一种通过自监督学习探索未见过的环境的有效解决方案。通过这种新技术，我们可以促进终身学习以及对新环境的适应。例如，家用机器人可以探索一个新的房子，然后通过学习之前的经验迭代式地改进导航策略。受到这一事实的启发，我们引入了一种自监督模仿学习机制（SIL）来支持智能体对未见过的环境（没有带标签的数据）进行探索。其中，智能体会学习自己过去积极的经验。

具体而言，在我们的框架中，导航器将执行多次「roll-out」策略，其中好的轨迹（由匹配评价器确定）将会被保存在经验回放缓存中，然后被导航器用于模仿。通过这种方式，当行器可以对其最佳行为进行近似，从而得到更好地策略。我们能够证明 SIL 可以近似得到一个更好、更高效的策略，这极大地缩小了训练时见过和未曾见过的环境之间的成功率的性能差异（从 30.7% 降低到 11.7%）。

非常荣幸，这篇论文被选为了 CVPR 2019 的最佳学生论文。用 CVPR 2019 最佳论文奖组委会的话来说，就是「视觉导航是计算机视觉的一个重要领域，而这篇论文在视觉-语言导航方面取得了进展。在该领域之前工作的基础上，该论文在跨模态环境下基于自模仿学习所取得的成果令人激动！」热烈祝贺这篇论的作者们：来自加州大学圣巴巴拉分校的王鑫、Yuan-Fang Wang、王威廉，来自微软 AI 研究院的 Qiuyuan Huang、Asli Celikyilmaz、Lei Zhang、Jianfeng Gao，以及来自杜克大学的 Dinghan Shen。其中，王鑫对这一工作所做的贡献是其在微软研究院实习期间完成的。

在另外一篇 CVPR 2019 论文「Tactical Rewind: Self-Correction via Backtracking in Vision-and-Language Navigation」（由微软 AI 研究院的 Xiujun Li和 Jianfeng Gao，华盛顿大学的 Liyiming Ke、Yonatan Bisk、Ari Holtzman、Yejin Choi、Siddhartha Srinivasa，以及微软 Dynamics AI 的 Zhe Gan 和 Jingjing Liu 共同完成）中，我们改进了 VLN 智能体的搜索方法，提出了一个被称为「快速导航器」（Fast Navigator）的动作编码的通用框架，使智能体能够基于局部和全局的信息比较长度不同的部分路径，并且在出错时进行回溯。

我们注意到，VLN 与文本生成任务有一些相似之处，所有现有的工作可以被分为两类：

总的来说，当前的 VLN 模型面临着两大核心问题：首先，我们应该回溯吗？如果我们应该回溯，那么我们应该回溯到哪一步呢？其次，我们应该在何时停止搜索？

为了使智能体能够在出错时进行回溯，我们将搜索与神经编码结合了起来，从而使得智能体可以基于局部和全局信息比较长度不同的部分路径，然后在发现错误时进行回溯。为了确定我们是否应该停止搜索，我们使用了一个融合函数，该函数会将局部动作知识和历史转化为一个进度的估计值，从而通过对我们之前的动作与给定的文本指令的匹配程度建模来评估智能体的进度。

via

原创文章，未经授权禁止转载。详情见转载须知。

CVPR 2019 最佳学生官方解读！

本文地址： https://www.gpxz.com/article/faf31c57be481626cb9a.html

上一篇：LabHCPCVPR12篇论文入选世界顶级计算机视觉

下一篇：一览小样本学习研究进展2019从CVPR小样本ga

工业级PON

深圳市冠联通信技术有限公司主营：工业级PON、工业级ONU、OLT光猫设备等，在惠州建有3.5万平方米的现代化光纤通讯产品生产基地，经过十几年的持续发展，已成为国内光通讯行业产品系列全、综合实力强的高新科技企业。

企业品牌 2026-01-20 22:46:56

成都集装箱方舱厂家

四川卡丰科技有限公司是一家专业从事成都集装箱方舱,成都住人集装箱,成都集装箱货柜定制生产与成都集装箱酒店,成都集装箱办公室销售批发以及成都设备集装箱,成都环保移动厕所,成都治安岗亭安装施工的综合性企业.公司拥有一批精干的管理人员和一支高素质的专业技术队伍,精良齐全的生产设备,上乘的产品质量,周到的售后服务.欢迎新老客户来电咨询!

商业服务 2026-01-21 12:15:33

杭州装修公司

铭品装饰2002年成立是杭州装修公司排名前十品牌、浙江口碑好的知名装饰公司。主营类别：别墅装修、新房老房装修，毛坯房二手房装修等类型的装修设计施工服务。杭州装修公司哪家好？铭品装饰免费提供装修报价。

设计美化 2026-01-21 13:30:44

延安卓天云集团

电影视频 2026-01-25 18:47:01

广东不锈钢玻璃防火门

广东固盾防火门生产厂家全国销售电话:18075925566专业生产销售钢质防火门,不锈钢防火玻璃门,不锈钢玻璃防火门,不锈钢防火门,KTV不锈钢防火门,电影院隔音防火门,防火卷帘门,木质防火门芯,防火窗.固盾防火门产品通过国家防火门3C强制性认证。公司具有一批优秀防火门设计师团队,采用防火门自动生产线流水作业,以优惠的防火门价格，过硬的防火门质量保证防火门通过消防验收标准赢得大批客户好评。

电影视频 2026-01-25 22:58:19

Carling

CarlingGlobal是一个为危机公关、舆情管理、SEO推广、网络运营提供优质解决方案的全能型平台！同时，平台大量分享财经信息，让大家足不出户，了解财经世界！

新闻资讯 2026-01-28 21:27:04

重庆康邦机电设备有限公司

重庆康邦是柴油发电机组设计、供应、调试、维护、服务于一体的电源系统解决方案提供商，可根据用户需求定制个性化整体电源解决方案。公司拥有完善的生产条件，先进的测试设备以及具有很强凝聚力的研发、技术、生产及服务团队。

设计美化 2026-01-28 22:03:03

厂房出租

在线厂房网是中西部地区免费厂房信息发布平台，业务涉及厂房出租、出售，个人厂房出租、出售，钢结构厂房出租、出售，仓库出售以及协助环评、排污许可办理，同时汇聚大量的工业园厂房出租、出售信息，其中包括工业园出租、出售以及厂房装修、升级改造等,为业主提供免费发布求租、招租、转让信息提供方便，信息量覆盖30个省市地区，真正实现一指观天下！

行业信息 2025-01-29 14:55:59

ZPAY支付

ZPAY支付作为支付宝微信系统服务商ISV，专业为个人可用的支付宝微信支付接口，支持当面付等支付方式，资金由官方D+1结算自动下发个人银行卡

网站模板 2025-01-31 02:19:01

逍遥导航网

逍遥导航网(4984.cn)是一个收录的导航网站,本站包含了各种官网,各种网站，各种资源，在这里你想找的网站，在这里都可以找到

下载资源 2025-02-03 21:02:59

万年历

择吉黄历网（www.jzyydsa.com）在线免费查询黄历，吉日吉时，在线择吉日免费查询，今日农历黄历查询，今天什么日子，今天农历几月几日，今天是什么日子老黄历在线免费查询。

查询工具 2025-03-04 17:25:01

产业要闻

52PK产业要闻,为您提供游戏行业新鲜资讯,点评圈内实事动态.

游戏网游 2026-02-02 17:27:44

第五人格下载安装链接分享 2022第五人格下载安装 (第五人格下载网易正版)

第五人格是一款非对称性的竞技类型游戏，很多新手玩家玩的都有点不知所措，那接下来就给大家看看2022第五人格下载安装以及开局攻略吧，如果你也喜欢就一起跟着小编了解下吧，第五人格手机扫码下载普通下载安全下载玩家以侦探的身份出现在游戏里边，得到了一封委托信件之后就开始对失踪案件进行调查，调查的过程里边会遇见超多的剧情故事，从而慢慢的找出更多...。

2025-02-11 22:59:02

今年支付宝扫福瓜分5亿疯狂网友开始5分钟后就集齐了 (今年支付宝扫福在哪里)

今年支付宝继续推出集福瓜分5亿现金，虽然有时分到的钱不多，但是主要是娱乐嘛，回归用户更能1分钱充10元话费再送2张福卡，你收到了吗?今天，支付宝集福活动已经正式开始了，大家纷纷按捺不住，拿出支付宝通过AR扫福字开始集福，只要是对着福字的图案或者是扫身边好友，五福到，手势，都可以获得一两张的福卡，虽然玩法跟往年一样，但结局可能不同，今天...。

2025-01-30 20:54:18

中科院陆汝钤获吴文俊人工智能最高成就奖百度王海峰获吴文俊人工智能杰出贡献奖 (中科院陆忠华)

雷锋网AI科技评论消息，12月9日上午，被誉为，中国智能科学技术最高奖，的吴文俊人工智能科学技术奖在苏州举行颁奖典礼，本届吴文俊人工智能奖共对70项人工智能成果授奖，包括吴文俊人工智能最高成就奖1项，吴文俊人工智能杰出贡献奖1项，吴文俊人工智能自然科学奖14项，吴文俊人工智能技术发明奖13项，吴文俊人工智能科技进步奖18项、吴文俊人工...。

2024-12-03 21:21:08

如何看待安徽灵璧县渔沟中学校园暴力事件? (如何看待安徽凤阳小岗村的改革)

校园暴力事件频发，引发社会广泛关注，青少年时期，本应是充满阳光和梦想的时期，然而，校园霸凌却如同阴云，遮蔽了这一片纯净的天空，未成年人保护法，本应成为保护弱小者的盾牌，却在这场事件中，成为加害者的庇护所，校园霸凌事件，往往以一种固定的模式展开，举报、传播、舆论发酵、惩罚和司法处理，然而，核心问题在于舆论的影响力，一旦事件被关注，就可能...。

2024-11-29 16:32:26

参数配置分析明基e320投影仪白天效果明基E320投影怎么样 (参数配置是什么意思)

发表在明基投影仪2022，5，2420，06导读，明基投影仪的大部分款式都是无智能系统的灯泡机，明基E320投影仪却是一款智能投影仪，内置安卓系统，这款明基E320投影仪到底怎么样呢，对比之前的没有系统的投影仪这款有没有做的特别优秀的地方，今天我们就参数配置一起来分析一下明基e320投影仪白天效果，明基E320投影怎么样，一，外观设计...。

2024-11-29 02:23:32

手机可以做投影仪吗 (手机可以做投影仪用吗)

发表在专业问答2023，10，913，56展示机型信息，品牌型号，iPhone14系统版本，iOS16.4手机可以做投影仪，通过手机制作投影仪需要纸盒，镜片，其中手机作为画面显示进行投射，所用到的原理也是小孔成像，不过和经过专业调校的投影仪还是有所欠缺的，手机可以做投影仪吗手机是可以来制作投影仪的，具体的方法如下，1.制作投影镜头使用...。

2024-11-28 17:58:30

2月28号生日是什么星座 (2月28号生的是什么星座)

2月28日是什么星座，双鱼座2月28日出世的双鱼座性情，2月28日出世的双鱼座，激情生动，但由于他们的精神过盛，但专一力又不够，往往容易被别的事物所吸引，由于他们选用如此生动而不斗争的生存，所以2月28日出世的人往往会比他人领有更多彩多姿的生存和丰盛的人生，由于受数字1影响，不论做什么都青睐当第一，他们是很典型的独立集体，很无心见、很...。

2024-07-09 13:24:05

明年底全国50%三级公立医院有望运行经营治理消息集成平台 (明年5月)

到2025年底，致力成功全国50%三级公立医院具有和运行经营治理消息集成平台；力争到2027年底，成功全国三级公立医院全笼罩，全国二级公立医院笼罩率显著优化……国度卫生肥壮委、国度中医药局近日印发，对于2024—2025年继续展开，公立医疗机构经济治理年，优惠的通知，，提出关系指标，通知明白要继续保持，规范治理、提质增效、强化监管，的...。

2024-07-04 23:43:26

往年上半年两岸航线旅客量同比增长189% 小三通 (去年的上半年与下半年相差多少)

记者从福建海事局得知，往年上半年，截至6月30日，，厦门至金门、泉州至金门、福州马尾至马祖、福州黄岐至马祖等4条，小三通，客运航线共发航客船4101班次，同比增长124%；运送旅客602548人次，同比增长189%，自2023年1月7日两岸，小三通，客运航线复航以来，共发航客船达9351班次，运送旅客达1365429人次，海事部门对，...。

2024-07-03 21:33:39

这五款办公用笔记本非常适合女性朋友

目前电脑早已成为很多商务人士的必备设备，但在选购笔记本电脑的时候，女性朋友都偏爱于外观好看且轻便的机型，文中为大家推荐了女生办公用笔记本电脑TOP5，为你选购电脑提供参考。

2023-10-07 01:07:46

【招聘】微顶跑腿钦州骑手闲时赚多几百

只要有空，只要有网！随时随地都能跑单！想赚钱你就来

2023-08-13 10:10:10

Coreldraw实例教程100例下载(CHM文档)-最新最全的经典Coreldraw实例教程

Coreldraw实例教程100例,最新最全的经典Coreldraw实例教程下载,您可以免费下载。

2023-08-11 20:49:24

文章推荐

希捷孙丹数据是开启元宇宙和智慧城市的钥匙第四届中国人工智能安防峰会 (希捷孙丹)

2021年12月11日，由&，AI掘金志主办的第四届中国人工智能安防峰会，在深圳正式召开，本届峰会以，数字城市的时代突围，为主题，会上代表城市AIoT的14家标杆企业，为现场和线上观众，分享迎接数字城市的经营理念与技术应用方法论，在下午场的演讲环节中，希捷科技全球高级副总裁暨中国区总裁孙丹发表了题为，数据为匙，开启元宇宙与...。

2024-12-09 23:01:34

资讯动态

柯柱良确认出席零念科技 CEO (柯国柱医生)

2021年12月10日，由雷锋网新智驾主办的第四届全球智能驾驶峰会将在深圳拉开帷幕，作为重磅嘉宾之一，零念科技联合创始人兼CEO柯柱良将在会上发表重要分享，柯柱良，零念科技联合创始人兼CEO，先后供职于华为、德国大众、TTTech，并主要负责自动驾驶项目的开发工作，在TTTech工作期间，他从2012年参与负责全球第一个L3自动驾驶域...。

2024-12-04 00:33:47

资讯动态

Plus！实际体验差多少荣耀畅玩7C对比红米5

随着手机市场的细分化程度越来越高，智能手机逐渐细分出多个等级，千元机就是各大厂商的必争之地，纷纷推出了旗下的千元机系列，如红米、魅蓝、荣耀畅玩等，我们今天就选择了两款目前市场上比较热门的千元机，红米5Plus和荣耀畅玩7c，今天我们就抛开跑分等因素，来一场更加直观的使用体验PK，荣耀畅玩7C对比红米5Plus视频请戳，优酷关注我们的微...。

2024-11-30 14:36:35

手机评测

2024年投影仪什么牌子好 2024哪些投影仪性价比高 (2024年投资什么行业最赚钱)

发表在综合交流大区2023，12，1411，04投影仪是让用户体验大屏的电子产品，如今技术更是成熟，各家各户都可以入手，用来搭建自己的家庭影院，但是现在投影品牌繁多，想要选择合适的高性价比的投影仪相对困难，那么具体该如何选择呢，下面就分享2024年投影仪什么牌子好的内容，看看有哪些高性价比投影仪值得入手，一、2024年投影仪什么牌子好...。

2024-11-28 23:00:31

网络百科

怎样熬糖 (怎样熬糖稀制作方法)

除了糖水比例，最主要就是熬的时间要把握好，用勺子将糖水混合物勺起慢慢倒入锅内，起丝就好怎么熬红糖小火加热把糖倒入此外什么都不加用铲子搅拌放置一会儿糖变色可能会冒小泡泡或者像是一片沫一样然后再翻炒几下关火我看过我爸爸这么炒熬糖怎么熬主料，柠檬2个、白砂糖200克，调料，水100毫升，做法步骤，1、柠檬一个对半切，2、将柠檬汁挤出，3、白...。

2024-11-18 21:00:45

资讯动态

最佳学生论文官方解读！ CVPR 2019 (最佳学生论文奖)

相关文章

文章推荐