无人汽车无法避开没见过的物体问题出在训练pipeline上 (无人汽车无法充电)

文章编号：41148 资讯动态 2024-12-03 Mask CNN 无人汽车 R 目标检测

无人汽车无法避开没见过的物体？问题出在训练pipe上

他们提出的目标检测方法，可以检测未见过的新物体，相对于Mask R-CNN有了巨大改进。

人类经常会遇到种类新颖的工具、食物或动物，尽管以前从未见过，但人类仍然可以确定这些是新物体。

与人类不同，目前最先进的检测和分割方法很难识别新型的物体，因为它们是以封闭世界的设定来设计的。它们所受的训练是定位已知种类（有标记）的物体，而把未知种类（无标记）的物体视为背景。这就导致模型不能够顺利定位新物体和学习一般物体的性质。

最近，来自波士顿大学、加州大学伯克利分校、MIT-IBM Watson AI Lab研究团队的一项研究，提出了一种检测和分割新型物体的简单方法。

无人汽车无法避开没见过的物体？问题出在训练pipe上

为了应对这一挑战，研究团队创建一个数据集，对每张图片中的每一个物体进行详尽的标记。然而，要创建这样的数据集是非常昂贵的。许多用于物体检测和实例分割的公共数据集并没有完全标注图像中的所有物体。

无人汽车无法避开没见过的物体？问题出在训练pipe上

图1. 标准的物体检测器训练中存在的问题。该例来自COCO，有色框是注释框，而白色虚线框是潜在的背景区域。许多白色虚线区域实际上定位了物体，但在传统的物体检测器训练中被认为是背景，从而压制了新物体的目标属性。

问题背景

未能学习到一般的目标属性会在许多应用场景中暴露出各种问题。例如具身人工智能，在机器人、自动驾驶场景中，需要在训练中定位未见过的物体；自动驾驶系统需要检测出车辆前方的新型物体以避免交通事故。

零样本和小样本检测必须对训练期间未标记的物体进行定位。开放世界实例分割旨在定位和分割新的物体，但最先进的模型表现并不理想。

导致目前最先进的模型表现不理想的原因在于训练pipeline，所有与标记的前景物体重叠不多的区域将被视为背景。如图1所示，虽然背景中有可见但却未被标记的物体，但模型的训练pipeline使其不能检测到这些物体，这也导致模型无法学习一般的目标属性。

为了解决该问题，Kim等人提出 学习候选区域（region proposals ） 的定位质量，而不是将它们分为前景与背景。他们的方法是对接近真实标记的object proposals 进行采样，并学习估计相应的定位质量。虽然缓解了部分问题，但这种方法除了需要仔细设置正/负采样的重叠阈值外，还有可能将潜在的物体压制目标属性。

方法

为了改进开放集的实例分割，研究团队提出了一个简单并且强大的学习框架，还有一种新的数据增强方法，称为 "Learning to Detect Every Thing"（LDET） 。为了消除压制潜在物体目标属性这一问题，研究团队使用掩码标记复制前景物体并将其粘贴到背景图像上。而前景图像是由裁剪过的补丁调整合成而来的。通过保持较小的裁剪补丁，使得合成的图像不太可能包含任何隐藏物体。

然而，由于背景是合成图像创建而来的，这就使其看起来与真实图像有很大的不同，例如，背景可能仅由低频内容组成。因此，在这种图像上训练出来的检测器几乎表现都不是很好。

为了克服这一限制，研究团队将训练分成两部分：

1）用合成图像训练背景和前景区域分类和定位头（classification and localization Heads）；2）用真实图像学习掩码头（mask head）。

无人汽车无法避开没见过的物体？问题出在训练pipe上

图2. 本文的增补策略是通过提高小区域的比例作为背景来创建没有潜在物体的图像。

无人汽车无法避开没见过的物体？问题出在训练pipe上

图3. 原始输入（左）和合成图像（右）。用颜色标示了掩码区域，使用小区域作为背景，避免了背景中会隐藏物体。在某些情况下，背景补丁恰好可以定位前景物体（左栏第二行）。要注意的是，这种情况很少见，可以看出补丁被明显放大了。

在训练分类头（classification head）时，由于潜在物体在合成图像时就已经被移除了，因此将潜在物体视为背景的几率变得很小。此外，掩码头是为在真实图像中分割实例而训练的，因此主干系统学习了一般表征，能够分离真实图像中的前景和背景区域。

也许这看起来只是一个小变化，但 LDET在开放世界的实例分割和检测方面的表现非常显著。

在COCO上，在VOC类别上训练的LDET评估非VOC类别时，平均召回率提高了点。令人惊讶的是， LDET在检测新物体方面有明显提高，而且不需要额外的标记，例如，在COCO中只对VOC类别（20类）进行训练的LDET在评估UVO上的平均召回率时，超过了对所有COCO类别（80类）训练的Mask R-CNN。如图2所示，LDET可以生成精确的object proposals，也可以覆盖场景中的许多物体。

无人汽车无法避开没见过的物体？问题出在训练pipe上

图4. 在开放世界中进行实例分割，Mask R-CNN（上图）比本文所研究的方法（下图）所检测到的物体要少。在此任务中，在不考虑训练种类的情况下，模型必须对图像中的所有物体进行定位并对其分割。图中的两个检测器都是在COCO上训练，并在UVO上测试的。在新的数据增补方法和训练方案的帮助下，本文的检测器准确地定位出许多在COCO中没有被标记的物体。

无人汽车无法避开没见过的物体？问题出在训练pipe上

图5. 训练流程。给定一个原始输入图像和合成图像，根据在原始图像上计算的掩码损失和分类，以及在合成图像上的回归损失来训练检测器。

实验结果

研究团队在开放世界实例分割的跨类别和跨数据集上评估了LDET。跨类别设置是基于COCO数据集，将标记分为已知和未知两类，在已知类别上训练模型，并在未知类别上评估检测/分割性能。

由于模型可能会处在一个新的环境中并且遇到新的实例，所以跨数据集设置还评估了模型对新数据集的归纳延伸能力。为此，采用COCO或Cityscapes作为训练源，UVO和Mappilary Vista分别作为测试数据集。在此工作中，平均精度（AP）和平均召回率（AR）作为性能评估标准。评估是以不分等级的方式进行的，除非另有说明。AR和AP是按照COCO评估协议计算的，AP或AR最多有100个检测值。

无人汽车无法避开没见过的物体？问题出在训练pipe上

表1. COCO中VOC → Non-VOC泛化的结果。表中最后一行的蓝色部分是对Mask R-CNN的改进。LDET超过了所有的基线，并相较于Mask R-CNN有巨大改进。

无人汽车无法避开没见过的物体？问题出在训练pipe上

图6. 在COCO数据集中，VOC to Non-VOC的可视化。上图：Mask R-CNN，下图：LDET。注意训练类别不包括长颈鹿、废品箱、笔、风筝和漂浮物。LDET比Mask R-CNN能更好地检测许多新的物体。

无人汽车无法避开没见过的物体？问题出在训练pipe上

表2. VOC → Non-VOC的数据和训练方法的消融研究。最后一行是本文提出的框架。

无人汽车无法避开没见过的物体？问题出在训练pipe上

表3. class agnostic训练的消融研究。class agnostic训练对LDET和Mask R-CNN的性能有些许提高。

无人汽车无法避开没见过的物体？问题出在训练pipe上

图7. 基线Mask R-CNN存在着对标记实例的过度拟合。因此，随着训练的进行，它检测新物体的性能会下降。相比之下，本文的方法基本上随着训练，性能都会提升。

无人汽车无法避开没见过的物体？问题出在训练pipe上

表4. 与COCO上测试的无监督方法和DeepMask的比较。需注意的是，DeepMask使用VGG作为主干。LDET和DeepMask是在VOC-COCO上训练的。

无人汽车无法避开没见过的物体？问题出在训练pipe上

表5. 改变背景区域的大小。2-m表示用输入图像的2-m的宽度和高度裁剪背景区域。从较小的区域取样背景，往往会提高AR，降低

无人汽车无法避开没见过的物体？问题出在训练pipe上

表6. ResNet50与ResNet101的对比。ResNet101倾向于比ResNet50表现得更好，这在LDET中更明显。

无人汽车无法避开没见过的物体？问题出在训练pipe上

图8. COCO实验中的目标属性图（RPN score）的可视化。LDET捕获了各种类别的物体性，而Mask R-CNN则倾向于抑制许多

无人汽车无法避开没见过的物体？问题出在训练pipe上

表8. COCO→UVO泛化的结果。上：在VOC-COCO上训练的模型，下：在COCO上训练的模型。与基线相比，L DET在所有情况下都表现出较高的AP和AR。

无人汽车无法避开没见过的物体？问题出在训练pipe上

图9. 在COCO上训练的模型结果的可视化。上图：Mask R-CNN，下图：LDET。最左边的两张图片来自UVO，其他的来自COCO的验证图片。

无人汽车无法避开没见过的物体？问题出在训练pipe上

a的归纳结果。LDET对自动驾驶数据集是有效的。AR0.5表示AR，IoU阈值=0.5。

GAIR 2021大会首日：18位Fellow的40年AI岁月，一场技术前沿的传承与激辩

2021-12-10

致敬传奇：中国并行处理四十年，他们从无人区探索走到计算的黄金时代 | GAIR 2021

2021-12-09

时间的力量——1991 人工智能大辩论 30 周年纪念：主义不再，共融互生｜GAIR 2021

2021-12-12

论智三易，串联通讯，贯通边缘，演进认知，汇于机器：听五位IEEE Fellow畅谈AI未来 | GAIR 2021

2021-12-25

新一代AI人才从哪里来，该往哪里去？| GAIR 2021院长论坛

2021-12-29

版权文章，未经授权禁止转载。详情见转载须知。

无人汽车无法避开没见过的物体？问题出在训练pipe上

本文地址： https://www.gpxz.com/article/c4c9ab1b4c927a05c7f4.html

上一篇：用Transformer做线代作业真香用transportat

下一篇：IEEE过敏意Fellow从IEEE汇刊主编视角看如何

广西查

广西查网★提供广西招生考试院校查询、广西大学分数线查询、广西高考分数线查询、广西国企待遇查询、广西公务员面试分数线、广西人事考试成绩查询，广西生活经验查询，思辨广西人才网站！

网站模板 2026-01-21 11:02:43

网站IP查询

IP反查域名是通过IP查询相关联的域名信息的功能。它提供IP地址历史上绑定过的域名信息，以及域名历史上解析过的IP地址列表。

网站模板 2024-08-06 12:55:45

购物商城

商家线下实体商品和网上虚拟产品移到便民平台上，在平台上实现下单、支付、物流配送等一条龙服务。

商业服务 2026-01-24 23:52:57

神婆运势网

神婆运势网是一家包含十二生肖、十二星座、周公解梦等每日运势、每周运势、每月运势解析的网站，欢迎您的到来。

星座灵异 2026-01-25 17:37:27

徐州鸥普科医疗科技有限公司

徐州B超机厂家,猪用比超,彩超机,小动物心脏彩超,宠物超声,B超,B超机多少钱,大动物直肠检查,牛用B超机,兽用B超机，小动物超声成像系统

宠物花鸟 2026-01-25 17:47:20

钢格栅板

【订购热线：150-3181-8882】安平县华良丝网制品有限公司提供各类钢格栅、格栅板、钢格栅板、镀锌钢格板。欢迎广大新老客户前来考察合作。

电影视频 2026-01-25 21:07:19

讯谷轻创

讯谷轻创平台-聚集了中赚网最新的创业项目,互联网热门项目,副业赚钱小项目,助力网络赚钱创业-付费网创教程和网创项目,聚合知识付费中创网会员VIP创业课程包含自媒体,福缘创业网论坛,拼多多,淘宝电商营销教程,SEO技术、短视频抖音快手等,创业就到讯谷轻创!

电影视频 2026-01-25 21:17:52

芒果文学免费提供精选散文

芒果文学网免费为读者提供精选散文、诗歌大全、唯美句子、美文故事、热门小说等。

小说阅读 2026-01-28 15:22:46

四川省能源投资集团有限责任公司

四川省能源投资集团有限责任公司成立于2011年2月21日,注册资本93.16亿元。公司为四川省人民政府批准,在四川省工商局依法注册登记的国有资本投资公司，是四川推进能源基础设施建设、加快重大能源项目建设的重要主体。

投资理财 2026-01-28 20:26:58

质检天下

质检天下是一家全方位的第三方产品检测平台，与众多检测机构合作，提供各类产品的检测报告，当中包含食品检测、纺织品检测、金属检测、水质检测、rohs检测、reach检测等等

科研机构 2026-01-28 22:09:41

公共广播

航天信广提供舞台灯光设备、会议音响设备、背景音乐、公共广播、校园广播、网络IP广播设备批发。承接安防监控系统工程、综合布线系统工程、智能楼宇可视对讲、周界报警、电子巡更、LED显示屏……。弱电工程,综合布线工程。

音乐歌曲 2025-02-06 22:04:30

湖北儿童乐园,淘气堡,儿童乐园,亲子乐园

湖北贝安心游乐设备有限公司专打造新型淘气堡儿童乐园，可以根据需求定制各类大小型室内儿童乐园。设备适用于早教中心、4S店、售楼中心、幼儿、商场、超市、母婴店、婴儿游泳馆、咖啡厅、健身房、大型酒店等等，可以帮助老板门提高收益和积累人气，让生意更好更火爆！本厂设备安全性能高,娱乐趣味性强,适合各年龄段小朋友,价格咨询热线：139-8611-1663

明星娱乐 2025-02-16 12:53:32

数据信息收集的3个方法分享 (数据信息收集的方法)

对于互联网人来说，信息收集是基本功，是很关键但又经常被忽略的能力，特别是对于产品经理而言，启动新项目、接触一个新的领域时，都需要先去了解这个行业、了解业务背景，观察行业的趋势以便做出正确的选择，例如前段时间，5G的概念炒得很火，假设有一天，领导想让你去分析分析现在5G行业的趋势以及应用场景，看看能跟自己家的产品怎么结合，该怎么做呢?很...。

2025-01-30 19:09:38

垂直门户网站的SEO思路 (垂直门户网站有哪些)

前几天，秦刚在文章中提到了我们在05年时候的合作，当时IT世界花了十几万购买了我们一个不到500字的SEO建议，后来SEO流量暴涨，后来秦刚又把这一策略带到了39健康网，也取得了成功，许多朋友在微信，tongwangkeji，都问我是什么建议，其实当时给他们的很简单，主要就是三点，在过去这些年，我最少让10家以上的大型网站的SEO流量...。

2025-01-29 00:15:58

以官方正告免得引发安保疑问在国外防止泄露国籍和族裔

外地期间11月10日，以色列国度安保委员会颁布国外游览正告，提示以色列公民在海外尽量防止泄露自己的国籍和族裔，免得引发安保疑问，据美国有线电视资讯网此前报道，11月7日，以色列一足球队在荷兰阿姆斯特丹加入欧联杯较量，赛后，局部以色列球迷在阿姆斯特丹受到暴力袭击，数十人因此受伤，10日，以色列国度安保委员会在其官方颁布了国外游览正告，正...。

2024-11-12 16:57:23

三国志战旗版兑换码2023 (三国志战旗版阵容推荐)

三国志战旗版兑换码2023，huhushengwei888、taptap666、51jcz、、xyzwgame666、douyin666、douyin777、douyin888、app666、APP666、huhushengwei888、taptap666、51jczXY888、QQ888、QQXY888、HAPPY666、happy...。

2024-07-07 16:15:15

广汽传祺GS5怎样样值得买吗 (广汽传祺gs4玻璃升降开关安装视频)

随着汽车行业的开展和中国品牌的崛起，广汽传祺也在车坛中越来越遭到大家的关注，其中，GS5作为广汽传祺旗下的一款中型SUV，表现得十分不错，那么，GS5终究能给生产者带来哪些惊喜呢，能否值得购置呢，接上去，我将联合团体的驾驶体验和市场口碑，为大家启动具体剖析，一、外观方面作为一款中型SUV，GS5在外观上做得十分杰出，彰显了剧烈的视觉冲...。

2024-07-07 04:37:19

好玩的游戏平台 (好玩的游戏平板)

好玩的游戏平台有，Steam、PlayStation4、XboxOne、Switch、AppleArcade等，作为PC游戏平台，Steam提供了泛滥高质量的游戏，如，绝地求生，、，Dota2，、，巫师3，狂猎，等，同时允许在线多人游戏和社区配置，2、PlayStation4作为一款家用游戏机，PS4提供了丰盛的高质量游戏，如，战神，...。

2024-07-05 17:02:09

看看哪个更贵更炫揭秘十大豪车品牌排行榜 (哪个更贵用英语怎么说)

豪车不时是许多人奢侈幻想的意味，随着人们生存水平的不时提高，领有一辆豪车也已成为小康以上家庭的必备生存装备，那么，在泛滥的豪车品牌中，哪些车品愈加贵气炫酷呢，上方就来看看最受欢迎的十大豪车品牌排行榜，第一名，保时捷保时捷是环球顶级的奢侈汽车品牌，从创立至今，保时捷仰仗其出色的质量与功能赢得了环球汽车市场的宽泛认可，并成为各界人士追赶的...。

2024-07-03 01:21:15

黄海旗胜f1后备箱玻璃怎样关上 (黄海旗胜f1油耗多少钱一公里)

间接按玻璃升降器开关，黄海旗胜F1是黄海汽车精心打造的一款高越野性的，市区越野SUV，，依照国内最新盛行趋向启动设计，融合欧洲及北美SUV科技元素设计理念，形状威猛霸气，车身线条流利丰满，驳回地道三菱底盘，经过多年的改良更新，成为SUV车型中当之有愧的越野王者，设计理念，旗胜V3是黄海汽车向上流休闲SUV车型迈进的一个新的里程碑，在产...。

2024-07-02 22:31:10

可以访问网站不受限度的阅读器有哪些 (可以访问网站的浏览器)

可以访问网站不受限度的阅读器如下，360阅读器、chrome阅读器、万能阅读器、火狐firefox阅读器、QQ阅读器，1、360阅读器360阅读器是一款360官网降级后推出的一款收费阅读器，全新首页全新改版，带给用户全新的体验，目前360阅读器在配置上也愈加给力，首页就可以观看抢手且你青睐的精彩新闻，也可以观看很多正版小说，这是阅读器...。

2024-07-01 15:35:28

西银POP海报大师破解版-西银POP海报大师v3.1.2.1322官方免费版

西银POP海报大师是一款海报制作软件，拥有海量商场超市特价商品海报模板，特价信息一键导入、打印，省时省心更省钱！支持批量生成海报，提高工作效率。

2023-11-11 17:19:06

爱普生l3218清零软件下载-爱普生l3218清零软件v1.0.3绿色版

爱普生l3218清零软件是一款专为EpsonL3218打印机所推出的专用工具，能帮助用户一键清零打印机报废提醒，让打印机正常可以工作

2023-11-06 11:25:14

福昕视频剪辑-福昕视频剪辑下载v1.1.2301.38官方版-

福昕视频剪辑,福昕视频剪辑显而易见是一款相当出色的视频剪辑软件，软件操作简单，剪切，合并，删除，旋转，裁剪，调速一气呵成，无需任何专业基础经验，也可快速上手，同时还拥有视频加字幕，视频配音等功能,您可以免费下载。

2023-08-11 17:25:08

文章推荐

野外求生游戏推荐 2022野外求生游戏有哪些 (野外求生游戏视频)

今天小编就来为大家整理出来了2022野外求生游戏有哪些，在陌生的荒野环境下，一个人独自求生，听上去就非常带感，小伙伴们是不是也想亲自尝试一番，接下来就给小伙伴们整理带来了耐玩的荒野求生类手游推荐，要是有感兴趣的朋友就快来看看这其中有没有你所喜欢的游戏吧！1、，荒野日记，孤岛，同样是孤岛求生，这部作品呈现了一种不同的文本生存之旅，在游戏...。

2025-02-11 21:02:45

资讯动态

国内域名商疑似停止win顶级域名服务 (国内域名提供商)

最近松松团队负责技术的同事任经理跟杰哥爆料，昨天整理公司域名偶然发现，各大域名商都没有.win顶级域名了，都将开始不在提供.win顶级域名服务，国内现有.win顶级域名也将转移到海外注册商，根据松松团队任经理提供的阿里云通知显示，根据，互联网域名管理办法，要求，阿里云开始停止为尚未取得域名注册管理机构许可的顶级域名提供服务，不再对您的...。

2025-02-01 20:13:58

资讯动态

如何加盟大益普洱茶 (如何加盟大益茶叶店?)

大益普洱茶是拥有合格发展前景的品牌，项目为店面带来了不一样的市场，也给店面带来了更多的经营，行业当中的一把好手，备受人们追捧为店面带来了不一样的前景，如何加盟大益普洱茶，大益普洱茶加盟非常简单，就是能作为店面带来更多前景，并且也给人们带来了多次国际主义，也给店面带来了更多的市场，这是拥有合格有机认证，并且远销多个的减排项目行业当中的一...。

2025-01-31 20:23:06

创业加盟

国人对两马还有秘密吗腾讯已掌握每个人的长相变化马化腾 (两马之争)

12月6日，2017年全球财富论坛在广州举办，腾讯董事会主席兼CEO马化腾在接受采访时表示，腾讯通过十亿张照片的大数据，已掌握几乎每个中国人的长相变化，能预测未来样貌，在谈及现如今流行的人脸识别技术问题时，马化腾表示，每一家都说有人脸识别的能力，但坦白讲腾讯的能力还是非常强的，马化腾透露，在腾讯平台，每一天有超过十亿张的照片上传，节假...。

2025-01-30 20:07:41

网络百科

Cloud2.0时代三大技术挑战 CTO张宇昕华为云BU (cloud2 vnwifi)

雷锋网消息，近日华为全联接大会正式召开，云服务已经成为华为整体业务的底座与基础，随着技术不断发展，个人和企业对云计算接受程度越来越高，大会期间，华为云BUCTO张宇昕接受了包括雷锋网在内的媒体采访，阐述了Cloud2.0时代面临的技术挑战以及华为的准备，华为云BUCTO张宇昕张宇昕表示，Cloud2.0时代的来临，相对于过去十几年互联...。

2024-12-09 22:22:49

资讯动态

无人汽车无法避开没见过的物体 问题出在训练pipeline上 (无人汽车无法充电)

相关文章

文章推荐

无人汽车无法避开没见过的物体问题出在训练pipeline上 (无人汽车无法充电)