2019 用图神经网络改善视频的多标签分类 ICCV 论文解读 (2019一2020图)

2019用图神经网络改善视频的多标签分类ICCV论文

语音播放文章内容

由深声科技提供技术支持

作者 | 王磊

本文介绍了汽车之家团队在ICCV 2019一篇关于视频理解论文相关的工作。针对视频多标签分类的问题,论文提出了将视频多标签之间相关性特征加入到网络之中,结果证明该方法可以显著的提高视频多标签分类效果。

一、背景介绍

随着视频应用的不断普及,视频内容理解与分析成为计算机视觉领域的一个热门研究方向。2017年,Google开源了其大规模视频内容数据集Youtube8M,鼓励研究者通过该数据集利用深度学习技术进行视频理解的研究。

最新的Youtube-8M数据集包括两部分,第一部分为video-level(视频层级)的标注,该部分总计包含610万个已标注的视频,3862个分类,平均每个视频标注了3个标签;第二部分为segment-level(视频片段标注),该部分挑选了1000个分类,对视频中随机抽取的5秒片段进行标注,该部分总共有23.7万个标注数据;值得注意的是,segment-level的数据标注仅标注了抽取的5秒视频片段是否属于某一特定标签,并没有标识该视频片段的所有标签。

二、标签相关性

近年来,视频理解成为计算机视觉领域的一个热点方向。相比较图像内容,视频内容更为复杂多样,因此对于视频内容而言,单个标签很难完整的表征视频的内容,对于视频内容理解分析大多为多标签的分类问题。

在视频标签中,很多标签之间会有一定的相关性并成对出现;如图一所示(标签从Youtube8M数据集中选取),当宝马(BMW)、发动机(Engine)的标签出现时,汽车(Car)的标签大概率也会出现;但是当汽车的标签出现时,宝马标签出现的可能性则非常低。

ICCV 2019 论文解读:用图神经网络改善视频的多标签分类

通过对Youtube8M数据集的部分标签数据进行分析,可以得到一个图来表征各个标签之间的关系,如图二所示。图二中每个不同颜色的节点代表一个独立的标签类别,不同节点之间的连线代表着两个节点之间是否有相关性,节点之间连线上的数值则代表了不同的标签之间联系的紧密程度,数值越大,则联系越高;没有联系的节点之间则不会有线连接。

通过对视频的多标签之间的相关性进行建模分析,并通过图神经网络将标签类别映射为对应类别分类器加入到最终的视频多标签分类网络之中,可以提升整体模型的学习分类能力。

ICCV 2019 论文解读:用图神经网络改善视频的多标签分类

三、图卷积神经网络

如何有效获取目标标签之间的相关性?如何利用这些标签相关性提升网络的特征学习以及分类表现?这是视频多标签分类的两个重要问题。由于图的特点可以很好的表征各个标签之间的相互依赖性,因此我们选择基于图神经网络进行建模学习,并用于最终视频分类网络中。一个图神经网络的基本结构如图三所示:

ICCV 2019 论文解读:用图神经网络改善视频的多标签分类 图3.图神经网络基本结构

Input输入有两个,一个为特征描述矩阵H(n*d),另一个为相关系数矩阵A(n*n),其中n为节点个数,即所有标签的个数,d为特征的维度,特征维度根据采用的CNN结构决定。

相关系数矩阵是GCN网络中表征标签关系的一个矩阵,因此如何构建相关系数矩阵 A 就成了GCN模型中一个非常重要的问题。由于Youtube8M数据集有超过600万的video-level的视频标注数据,因此我们可以通过挖掘标签在数据集中的共现情况来初始化相关系数矩阵A。 为标签i在数据中出现的次数, 为标签i和标签j两个标签一起出现的概率,两者相除便可以得到不同标签之间的条件概率矩阵P。

ICCV 2019 论文解读:用图神经网络改善视频的多标签分类

考虑到标注数据中可能存在不准确的情况以及标签在训练和测试集中共现的次数可能会相差比较大,因此我们设置了一个阈值剔除相关性比较弱的噪声的影响。对于上面得到的矩阵P,只有其值大于某特定值(论文中为0.5)的时候才会考虑,否则矩阵中这两个标签的相关度会设置为0,因此优化后的条件概率矩阵如下所示:

ICCV 2019 论文解读:用图神经网络改善视频的多标签分类

Hidden Layer用来学习节点之间的相关信息并更新节点表示,每一个Hidden Layer都可以用一个非线性函数表示:

ICCV 2019 论文解读:用图神经网络改善视频的多标签分类

Hidden Layer可以有多层,堆叠多个 GCN 层来对节点之间交织的复杂关系进行建模。在本论文中Hidden Layer为两层,通过训练学习便可以得到优化后的表征标签相关性的矩阵Output,并用于帮助视频标签分类。

四、整体网络

最终的完整网络结构如图四所示,我们使用InceptionV3来提取输入视频的特征;NeXtVLAD网络是第二届Youtube8M比赛单模型冠军网络,该网络可以很好的视频的多维度特征进行聚合,并且在降低特征维度的同时还能很好的保证模型性能;在网络的下半部分,我们用一个双层的GCN网络来帮助进行最后的视频标签分类。最终的对比实验中,加入GCN后的视频多标签分类网络MAP(Mean-Average-Precision)提高了接近一个百分点,GCN网络的加入显著性显著的提高了视频多标签的分类能力;也证明了对于多标签分类任务,通过研究多标签之间的相关依赖关系提升网络分类能力是一个很好的方向。

ICCV 2019 论文解读:用图神经网络改善视频的多标签分类

五、结论

视频理解与分析是计算机视觉领域的一个热门问题,针对视频的特征提取以及特征聚合全世界的研究已经做了大量的工作。本文提出了从多标签相关性的视角来提升视频的多标签分类能力并进行了有效的实验验证。通过对视频的图像特征、时序特征、标签相关性特征进行融合的分类网络可以很好的增强神经网络的视频理解能力。

原创文章,未经授权禁止转载。详情见 转载须知 。

ICCV 2019 论文解读:用图神经网络改善视频的多标签分类


本文地址: https://www.gpxz.com/article/c0c3a0769ee043534ee0.html
全局中部横幅
全局中部横幅
微信音乐小程序

本站提供市面上最新最全的微信音乐小程序资源,您可以免费获取这些应用资源。

氢气增压泵

思特克是国内超高压泵阀行业的领导品牌,专业生产氢气增压泵,超高压气动泵,超高压针阀,超高压阀门,液驱气体增压系统,气动增压泵

国产PLC

联诚科技集团股份有限公司是一家专业从事国产PLC控制器生产的厂家,专注高品质PLC控制器研发生产销售。作为国产PLC品牌之一,我们提供全面的自动化控制解决方案,助力工业智能化升级。

艾普生除湿机,除湿器,工业除湿机,防爆除湿机,调温除湿机,转轮除湿机,热泵烘干机,烘干设备,恒温恒湿机,超声波加湿器,恒湿机,除湿加湿一体机等。欢迎咨询除湿机价格,除湿机厂家,转轮除湿机价格,恒温恒湿机价格,高温热泵烘干机,加湿机等。

艾普生环境科技,提供环境空气温湿度解决方案及配套设备。产品有除湿器,除湿机,工业除湿机,调温除湿机,防爆除湿机,防腐除湿机,,热泵烘干机,烘干设备,高温热泵烘干机,转轮除湿机,低露点转轮除湿机组,恒温恒湿机,精密净化空调,人防空调,超声波加湿机,湿膜加湿器,除湿加湿一体机等。欢迎来电咨询除湿机价格,除湿机厂家,工业除湿机价格,热泵烘干机价格,风冷恒温恒湿机等。热线电话:400-158-5890.

乐从物流公司

乐从速通物流是一家从事乐从到全国的陆运、空运、海运物流服务的物流公司。乐从物流公司以快捷、准时、安全、优惠的服务宗旨为广大客户服务!

成都金蝶软件

成都金蝶软件|金蝶云星辰|四川金蝶财务软件|金蝶云星空|金蝶财务软件免费版|财务软件新手入门|云星辰试用|金蝶软件四川成都公司|四川成都金蝶软件售后服务中心|金蝶软件维护服务|金蝶软件成都分公司|金蝶软件营销服务中心|金蝶软件维护电话|金蝶云星辰试用|云星辰售后服务

人力资源总监网

人力资源总监网是我国发布人力资源管理体系、HRSSC人力资源共享服务中心、HRBP人力资源业务合作伙伴、HRCOE人力资源管理专家、eHR人力资源管理信息化等内容的门户网站。

ETAGEAR

ETAGEAR是一款专业的齿轮设计软件。它能计算平行轴圆柱齿轮、NGW行星轮系、齿轮齿条、蜗杆、蜗杆配斜齿轮、蜗杆蜗轮、直齿锥齿轮、斜齿锥齿轮、格里森弧齿锥齿轮、等距螺旋锥齿轮、渐开线花键和一齿差摆线针轮。在常用工具里面可以实现变位系数与公法线和跨棒距的相互换算。自带的3D模块能方便的进行齿轮3D造型和动画仿真,支持导出STEP和DXF文件。锥齿轮3D模块还支持修形参数。

沃江南,养花不难

沃江南,养花不难。沃江南是一个专注于提供高品质园艺植物肥料的品牌,沃江南致力于为花草爱好者创造绿色、健康、美丽的生活空间。沃野千里,只爱江南这一春。

海安旺成科技有限公司

海安旺成科技有限公司主营生产干式变压器横流式冷却风机|离心式冷却风机|干式变压器冷却风机等,咨询热线:13806277288。欢迎惠顾。


全局底部横幅