深度学习集体瓶颈 产业化加速时代CV研究出路在哪里

夏威夷当地时间7月26日,CVPR 2017最后一天,李飞飞教授等学者在ImageNet workshop上缅怀过去8年计算机视觉(CV)发展的ImageNet时代,同时宣布挑战赛最终归于Kaggle。

同一天上午,WebVision也公布了第一期获奖名单。

WebVision竞赛由苏黎世联邦理工、Google Reasearch、卡耐基梅隆大学等共同组织。但相较而言,WebVision所用数据集直接从网络爬取,没有经过人工标注,含有大量噪音之外,数据类别和数量也远大于ImageNet比赛所用数据,所以难度也高很多。

所以,ImageNet为什么结束?WebVision将如何推动CV发展?CV学术与应用研究的出路又在哪?带着这些问题,雷锋网AI科技评论与多位计算机视觉专家进行了交流。

深度学习集体瓶颈,产业化加速时代CV研究出路在哪里?

在CVPR研讨会上,李飞飞教授作为谷歌研究院代表暨比赛赞助方,向码隆科技算法团队颁发了WebVision冠军奖项

为何CVPR 2017没有惊喜?

六天会议过程中,CVPR 2017的论文成果通过oral presentation、workshop、poster、spotLight等环节普遍都得到了展示,但业内人士普遍认为,“今年并没有一个特别让人兴奋、惊喜的成果出来。”香港中大-商汤科技联合实验室林达华教授解释称,包括「Densely Connected Convolutional Networks」等最佳论文在内,我们看到了很多不同的网络设计的想法和切入角度,这些扎实的工作推动了现有体系、架构的一步前进,但是,却普遍缺乏一个根本性突破(fundamental breakthrough)。

关于计算机视觉和模式识别的研究,过去数年依靠ImageNet数据集之下,通过深度学习该领域获得长足的发展。但是,如WebVision主办方成员李文博士指出,依赖于数据标注进行训练,这也是过去到现在CV研究到达了瓶颈的原因。因为,很多实际场景中是没有大规模标注数据的,如果WebVision希望推动半监督或无监督学习进行图像理解的初衷能够实现,将更符合现实的应用。

地平线机器人技术创始人及CEO余凯接受雷锋网采访时指出,“现在的深度学习其实是一个有问题的框架,基本是用大数据和很多标注数据来训练,这过去几年很成功,但不代表是正确的方向。”余凯表示,现在的计算机视觉的系统是一个(特征为)training system的训练,而不是一个Learning system,我们要从training system变成learning system,让机器主动,并结合数据的结构、时间空间结构去学习,而不是被动地用人工训练来标注它。“在自动驾驶领域尤其重要,因为驾驶中永远有好多corner case,这些在训练数据集里面是没有的。”

对于当前CV研究现状,林达华教授指出,“如今似乎是有新的成果诞生但又有所停滞的状态,就像当年deep learning流行起来之前几年的状态——虽然各种思路百花齐放,但是很多核心问题都尚未取得新的突破性进展。”

不过,面对今年来自全球各地超过五千人的参会盛况,林达华教授说道:“ 现在处于承前启后的阶段,大家都非常关注计算机视觉这个领域。目前很多研究组都在积极开拓新的问题和方向,我相信未来一两年内能够在多个方向实现新的突破。”

不过,面对今年来自全球各地超过五千人的参会盛况,林达华教授说道:“现在处于承前启后的阶段,大家都非常关注计算机视觉这个领域。目前很多研究组都在积极开拓新的问题和方向,我相信未来一两年内能够在多个方向实现新的突破。”

以大公司,比如腾讯AI Lab的两篇论文为例——「Deep Self-Taught Learning for Weakly Supervised Object Localization」,提出依靠检测器自身不断改进训练样本质量,破解弱监督目标检测问题中训练样本质量低的瓶颈;以及「DIverse Image Annotation」,用少量多样性标签表达尽量多的图像信息,该目标充分利用标签之间的语义关系,以使得自动标注结果与人类标注更加接近——都强调了模型的自主学习和理解的方法的突破。

寻找下一个“突破”的方向和出路

在今年的CVPR上,录取论文涉及的领域占比最高的五类是:计算机视觉中的机器学习(24%)、物体识别和场景理解(22%)、3D视觉(13%)、低级和中级视觉(12%)、分析图像中的人类(11%)。

所谓的“突破”,即是大家都迫切希望解决这个问题,但是暂时又没有很好的方法来解决,那么就看谁提出了很好的方法。从今年CVPR的成果来看,data set的研究依旧火热;不过,林达华教授指出,到现在,ImageNet基本上做到一个极限了。“当一个事情的标准做到98%、99%的时候,从学术的角度来说,这个事情做到这个程度,学术界的使命差不多终结了。”

所以,无论是新升级的WebVision竞赛,还是大公司的研发——对于做学术的人来说,如何寻找新的挑战?

林达华教授向雷锋网AI科技评论介绍,在其实验室的研究下,总结起来CV领域的突破方向主要有三个,而它们各自的未来和面临挑战是怎样的呢?

方向一:做更大更有挑战性的数据集

深度学习集体瓶颈,产业化加速时代CV研究出路在哪里?

在WebVision的workshop上,Google科学家介绍了他们如何用300Million的3D图片做deep learning。而在更早之前,雅虎被收购前也发布了一个“YFCC 100M”,数据库达到亿级。

不过,这些数据最大的问题是,上亿的数据集,像ImageNet那样把标签做好,几乎是不可能的事情。在数据量庞大的情况下,带来新的挑战是:怎么提供标签?同时,每个领域的AI应用都需要各自领域的数据集,是需要每一个领域都标注一个自己的ImageNet?显然这样的效率难以被产业界接受。

所以,现在大家也不选择提供标签了,比如Google可能就直接通过data采集了一些标签。只是也没有完全百分百能够确认标签是对的,就在于校验一下准确率达到70%、80%。WebVision比赛最重要的特点就是采用的非人工标注, 而是通过特定的标签在互联网上搜索1000个类的图片, 这样就容易引起图像和标签含有大量的错误信息(噪声)。这不同于“干净”的ImageNet数据,图片内容和对应的标签都非常单一和清楚。

深度学习集体瓶颈,产业化加速时代CV研究出路在哪里?

“那么,怎么样使用这些有噪音的数据?这其实是带来了一个非常大的挑战。 我们内部拿现有的视觉模型和学习方法在有噪音的数据集上测试过,发现不用说20%,哪怕是10%的错误标签都会对性能产生严重的破坏。”林达华教授说道。

理论上说,如果有十倍以上的数据量,以及一个好的方法的话,机器识别和理解的水平必定要超越原本ImageNet的水平,但目前只能达到不相伯仲的结果。那么问题就来了:是要投入一些资源,继续做一百万级的标注数据,还是就想办法去解决上亿的数据集问题?

“这是一个很open的领域。”没有标注,就没标准参照,机器怎么处理这种带噪音数据?如何把握机器识别的准确性呢?……这些都是有待探索的问题。

作为本次WebVision第一名获奖得主,码隆科技首席科学家黄伟林博士向雷锋网AI科技评论表示,所以,要实现这个突破, 需要发展半监督(semi-supervised),甚至无监督(unsupervised)学习。这就需要设计更好、更优化的损失函数(loss functions), 来减少模型训练对标签数据的依赖。 对于更复杂的图像分割任务, 最重要的应该发展弱监督(weakly-supervised)学习算法,以尽量避免像素级别的标注。

在这个过程中, 最近很火的生成式对抗网络(Generative Adversarial Networks,GAN),可以自动生成大量的人工样本,这些人工样本对训练缺乏样本和标注的图片数据有很大帮助,为解决多层次图像理解提供重要的思路。 另外,如何利用少量的图片数据和标签来训练足够优化的深度模型也是重要的一个课题, 而课程学习(curriculum learning)对提升模型的泛化能力非常有效。

不过,如果扩展到更广阔的计算机视觉应用领域,业内人士会觉得,这还不太够。这就是下一个方向需要解决的问题。

深度学习集体瓶颈,产业化加速时代CV研究出路在哪里?

方向二:需要带有结构的数据

“就是说我觉得计算机视觉要和robotics结合在一起,它是用时间的维度去看场景的变化,什么是前景什么是背景区,什么是一个物体,什么是形状。最后理解到的结果应该是有空间信息的语义识别理解,现在都还很少,都是用弱监督、生成对抗的方法去做。”地平线机器人技术创始人及CEO余凯指出,

所以,这里不是指NLP领域的所谓结构化数据。在自动驾驶领域中,林达华教授指出,很多人做自动驾驶的预测时,需要做路线的检测、三维重建等,这些许多任务当中的每一个,从传统学术的研究角度,是分开研究的。但是,实际中要解决这些问题,比如驾驶,就是个综合的问题,人开车时也不会把任务分成若干个方向分别做判断。

以往的图像分割,每一次分割用一次CNN这样的方法,并不能综合处理这些任务。比如,通过地图,周边环境明明存在一个空间结构,图像分割并不能将这些结构性空间考虑全面,“ 单纯的语义分割,比如一张图中标出这50万个像素是路,另外80万个像素是建筑物,这是无法直接指导驾驶的。”

林达华教授表示,从学术的角度看,只有把结构数据融合在一个几何的框架下面,才能知道客观世界是什么——前面多少米是人、 是建筑,前面的车开得多快……这才是实际有用的成果。

“所以,所谓的结构就是有多个不同的方面,相互之间是有着数学上、语义上、物理上的各种联系。在多种补充结构相互联系的系统里面,用系统的角度,带着结构的角度,去系统地观察,把不同的视觉联合在一起解决问题,我觉得也是一个现在正在开始推进的方向。”

方向三:做视频领域的ImageNet

承接上述结构数据处理的问题继续展开想象,就会发现,整个CVPR 2017中,视频理解相关的研究大约只占整个会议论文不到30%的水平,但实际中这个问题的应用却是极其广泛。人脸识别、监控、互联网视频、自动驾驶等,全部有巨大商业价值的视觉数据,都是以视频的形式存在的,不是一帧一帧的。

视频相对与图像而言,最重要的一点就是多了一个维度:时间轴。怎么去利用这一个新的维度,利用时间的关系……

据了解,今年就有很多大公司、研究小组都做了新的视频数据集(video>挑战:学术与商用叠加的距离

WebVision在今年的CVPR大会上开设了一个专题,上面提出了 Visual understanding and learning from web target="_blank">转载须知。


本文地址: https://www.gpxz.com/article/25a42ab618c2fbddbb82.html
全局中部横幅
全局中部横幅
2024CMA全新备考资料包

高顿教育不仅提供2024年CMA免费备考资料、历年真题、备考经验等相关资源,还提供CMA培训课程与辅导网课等具体服务

降重君AI论文,免费开题报告

依托7亿多海量专业论文数据模型,支持上传自己的参考文献,并且文献全文引用,用最先进的技术,全程为您提供高质量、低重复的学术写作体验。论文参考文献保证5年以内,1-5万字符知网查重20以内,每一篇都是原创,不会泄露,有表格,公式,代码可选,保证知网查重率在20以内,ai检测结果高免费降。

希望金融

希望金融(www.xwjr.com)-新希望集团旗下农村互联网金融平台,为个人、三农及小微企业用户提供优质高效的网络贷款、p2p金融资金管理服务,推动农村金融和小微金融的发展,新希望,兴金融。

雅诺居

雅诺居位于广东省东莞市虎门镇

武汉佳德沃博格风动技术有限公司

武汉佳德沃博格风动技术有限公司成立于2002年,在2006年成为Wittig系统工程产品的销售机构,是德国Wittig系统工程在中国境内唯一办事机构,负责中国境内Wittig风动系列产品的技术支持、销售推广、售后服务及相关产品的市场开拓及行业应用。 德国Wittig系统工程是世界上最大的生产风机、压缩机和真空泵的专业风动设备制造商,Wittig风动系列产品早在上世纪70年代已经服务于中国,并为当时具有世界领先水平的武汉钢铁集团(现与宝钢集团合并为世界五百强企业-中国宝武集团)一米七轧机生产线提供了整套的风动设备。而武汉佳德沃博格风动技术有限公司自成立以来,仍在持续不断的为武汉钢铁集团生产改造项目提供完备的风动设备及专业技术支持。 Wittig产品线众多,结合中国工业技术的发展特点,工程及移动类产品的应用范围十分广泛,如离心风机、罗茨风机、旋转叶片气体压缩机、旋转叶片真空泵等产品,可大量应用于通风排风、空气供应、空气压缩、气体压缩、气体传输、真空供应等工程及移动车载领域。同时,我们十分擅长于针对不同的工艺、行业进行系统化工程方案定制,能持久的为客户提供更为科学、合理的专业应用支持。 公司自成立以来一贯致力于企业和员工的共同发展,并始终以人才培养作为企业发展的根本基石。我们始终秉承:工作时刻充满激情,愿与公司一起成长;最好成绩努力创造,公司发展之路更广;明确自己肩上责任,不畏困难勇敢前进;愿为客户无私奉献,只求赢得更好口碑。 时至今日,通过团队不懈的努力,我们已将先进的技术广泛应用于冶金、电力、纺织、气体运输和分离、化工、造纸、玻璃制造、环保水处理等行业,在未来的发展中,我们已把视角延伸至全球化合作的海油、石油等可持续发展的能源行业,通过在专业领域的不断求实与创新,致力于成为真空及压力应用的专家,以至诚的服务和奉献精神铸成一个新的质量定义,并以此奉献给我们的客户。

弹簧试验机

济南时代试金试验仪器有限公司,主营具有影响力的试验仪器一站式服务,联系人:李超。济南时代试金试验仪器有限公司首页有产品,招聘,联系方式等详细信息,如需了解请点击进入。

呼和浩特市凌达新产品开发有限公司

呼和浩特市凌达新产品开发有限公司主营业务主要有:产品研发销售、广告创意彩印。可印刷制作宣传单、画册、书刊、海报、手提袋、包装礼盒、档案袋、表格联单、无碳复写、不干胶、信封、信纸、广告促销品、挂历、台历、对联、扑克、条幅、喷绘、形象墙、党建墙、标识标牌、广告工程等。

深圳工业设计公司

橙子工业设计是智能产品工业设计和产品外观结构设计专家,业务范围立足智能电子行业,涵盖智能安防产品设计,智能家居产品工业设计,医疗器械产品外观设计,智能硬件消费类电子产品设计,交通警用电力行业产品定制设计,视频会议机智能音频产品外观设计,美容个护产品外观结构设计、宠物产品设计、灯具产品设计,钣金设计等诸多领域。

自助友链互换

自助友链互换-功能正在开发中

顺承会展物料租赁

顺承会展物料租赁主要经营:家具出租、家具租赁、展会家具用品出租、会展家具用品等租赁业务、致力于为大型展览展示、国际会议、推广活动、长条桌,联系电话:18911258322

通达查

通达查是提供车辆信息查询和个人信息验证的综合信息查询平台。产品包含:手机号机主姓名验证、身份证真伪核验、法院判决书查询、被执行人查询、身份证后4位查询、车牌号查询车辆信息、车牌号查询车架号、车牌号车主姓名验证等多种产品

心标教育网:小学试卷题库

心标教育网专注于小学试卷、初中试卷、高中试卷等下载资源的试卷网站。为广大家长提供免费在线心标诊断,并生成诊断报告及进一步的诊断试卷。新增针对薄弱环节的专项练习试卷题库供家长下载。


全局底部横幅