目标跟踪最强算法开源 商汤SiamRPN系列解读 (目标跟踪有什么用)

文章编号:43874 资讯动态 2024-12-09 目标跟踪 目标检测

雷锋网 AI 科技评论消息,日前,商汤科技智能视频团队首次开源其目标跟踪研究平台 PySOT。PySOT 包含了商汤科技 SiamRPN 系列算法,以及刚被 CVPR2019 收录为 Oral 的 SiamRPN++。此篇文章将独家解读目标跟踪最强算法 SiamRPN 系列。

背景

由于存在遮挡、光照变化、尺度变化等一些列问题,单目标跟踪的实际落地应用一直都存在较大的挑战。过去两年中,商汤智能视频团队在孪生网络上做了一系列工作,包括将检测引入跟踪后实现第一个高性能孪生网络跟踪算法的 SiamRPN(CVPR 18),更好地利用训练数据增强判别能力的 DaSiamRPN(ECCV 18),以及最新的解决跟踪无法利用到深网络问题的 SiamRPN++(CVPR 19)。其中 SiamRPN++在多个数据集上都完成了 10% 以上的超越,并且达到了 SOTA 水平,是当之无愧的目标跟踪最强算法。

项目地址:

目标跟踪最强算法开源:商汤SiamRPN系列解读

以上动图中,红色框是 SiamRPN++的跟踪效果,蓝色框是 ECCV 2018 上的 UPDT 的结果,可以看出 SiamRPN++的效果更佳,跟踪效果更稳定,框也更准。从这个图也可以看出跟踪的一些挑战:光照急剧变化,形状、大小变化等。

SiamRPN (CVPR18 Spotlight):

在 CVPR18 的论文中(SiamRPN),商汤智能视频团队发现孪生网络无法对跟踪目标的形状进行调节。之前的跟踪算法更多的将跟踪问题抽象成比对问题,但是跟踪问题其实和检测问题也非常类似,对目标的定位与对目标框的回归预测一样重要。

研究人员分析了以往跟踪算法的缺陷并对其进行改进:

1. 大多数的跟踪算法把跟踪考虑成定位问题,但它和检测问题也比较类似 ,对目标的定位和对目标边界框的回归预测一样重要。 为此,SiamRPN 将跟踪问题抽象成单样本检测问题,即需要设计一个算法,使其能够通过第一帧的信息来初始化的一个局部检测器。为此,SiamRPN 结合了跟踪中的孪生网络和检测中的区域推荐网络:孪生网络实现对跟踪目标的适应,让算法可以利用被跟踪目标的信息,完成检测器的初始化;区域推荐网络可以让算法可以对目标位置进行更精准的预测。经过两者的结合,SiamRPN 可以进行端到端的训练。

2. 以往的滤波类的方法,没办法通过数据驱动的形式提升跟踪的性能。而 SiamRPN 可以端到端训练,所以更大规模的数据集 Youtube-BB 也被引入到了训练中, 通过数据驱动的形式提升最终的性能

目标跟踪最强算法开源:商汤SiamRPN系列解读

结合以上两点创新,在基线算法 SiamFC 的基础上,SiamRPN 实现了五个点以上的提升(OTB100,VOT15/16/17 数据集);同时还达到了更快的速度(160fps)、也更好地实现了精度与速度的平衡。

DaSiamRPN (ECCV18):

SiamRPN 虽然取得了非常好的性能,但由于训练集问题,物体类别过少限制了跟踪的性能;同时,在之前的训练方式中,负样本只有背景信息,一定程度上也限制了网络的判别能力,网络只具备区分前景与不含语义的背景的能力。基于这两个问题,DaSiamRPN 设计了两种数据增强方式:

1. 孪生网络的训练只需要图像对,而并非完整的视频,所以 检测图片也可以被扩展为训练数据 。更准确的来说,通过对检测数据集进行数据增强,生成可用于训练的图片对。因此在 DaSiamRPN 中,COCO 和 ImageNet Det 也被引入了训练,极大地丰富了训练集中的类别信息。同时,数据量增大的本身也带来了性能上的提升。

2. 在孪生网络的训练过程中, 通过构造有语意的负样本对来增强跟踪器的判别能力 ,即训练过程中不再让模板和搜索区域是相同目标;而是让网络学习判别能力,去寻找搜索区域中和模版更相似的物体,而并非一个简单的有语义的物体。

目标跟踪最强算法开源:商汤SiamRPN系列解读

经过上述的改进,网络的判别能力变得更强,检测分数也变得更有辨别力,这样就可以根据检测分数判断目标是否消失。基于此,DaSiamRPN 可以将短时跟踪拓展到长时跟踪,并且在 UAV20L 数据集上比之前最好的方法提高了 6 个点。在 ECCV18 的 VOT workshop 上面,DaSiamRPN 取得了实时比赛的冠军, 相比去年的冠军有了 80% 的提升

SiamRPN++ (CVPR19 Oral):

目前,孪生网络中的核心问题在于现有的孪生网络目标跟踪算法只能用比较浅的卷积网络(如 AlexNet), 无法利用现代化网络为跟踪算法提升精度,而直接引入深网络甚至会使性能大幅衰减。

为了解决深网络这个 Siamese 跟踪器的痛点,商汤智能视频团队基于之前 ECCV2018 的工作(DaSiamRPN),通过分析孪生神经网络训练过程,发现孪生网络在使用现代化深度神经网络存在位置偏见问题,而这一问题是由于卷积的 padding 会破坏严格的平移不变性 。然而深网络并不能去掉 padding,为了缓解这一问题,让深网络能够在跟踪提升性能,SiamRPN++中提出在训练过程中加入 位置均衡的采样策略 。通过修改采样策略来缓解网络在训练过程中的存在的位置偏见问题,让深网络能够发挥出应有的效果。

目标跟踪最强算法开源:商汤SiamRPN系列解读

通过加入这一采样策略,深层网络终于能够在跟踪任务中发挥作用,让跟踪的性能不再受制于网络的容量。同时, 为了更好地发挥深层网络的性能,SiamRPN++中利用了多层融合 。由于浅层特征具有更多的细节信息,而深层网络具有更多的语义信息, 将多层融合起来以后,可以跟踪器兼顾细节和深层语义信息,从而进一步提升性能。

除此之外,研究人员还提出了新的连接部件,深度可分离相关层(Depthwise Correlation,后续简写为 DW)。相比于之前的升维相关层(UpChannel correlation,后续简写为 UP),DW 可以极大地简化参数量,平衡两支的参数量,同时让训练更加稳定,也能更好的收敛。

目标跟踪最强算法开源:商汤SiamRPN系列解读

为了验证以上提出的内容,研究人员做了详细的实验。在比较常用的 VOT 和 OTB 数据集上,SiamRPN++取得了 SOTA 的结果。在 VOT18 的长时跟踪,以及最近新出的一些大规模数据集上如 LaSOT,TrackingNet, SiamRPN++也都取得了 SOTA 的结果

目标跟踪最强算法开源:商汤SiamRPN系列解读

传送门:

目前相关代码现已上传至商汤科技开源目标跟踪研究平台 PySOT。PySOT 实现了目前 SOTA 的多个单目标跟踪算法,旨在提供高质量、高性能的视觉跟踪研究代码库,并将其灵活应用于新算法的实现和评估中。欢迎大家使用与交流!

PySOT 开源项目

参考文献:

Bo Li, Wei Wu, Qiang Wang, Fangyi Zhang, Junliang Xing, Junjie Yan, "SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks" (Oral) in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2019

Zheng Zhu, Qiang Wang, Bo Li, Wei Wu, Junjie Yan, "Distractor-aware Siamese Networks for Visual Object Tracking" European Conference on Computer Vision (ECCV) 2018

Bo Li, Junjie Yan, Wei Wu, Zheng Zhu, Xiaolin Hu, "High Performance Visual Tracking with Siamese Region Proposal Network" (Spotlight) in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2018

Luca Bertinetto, Jack Valmadre, João F. Henriques, Andrea Vedaldi, Philip H. S. Torr

"Fully-Convolutional Siamese Networks for Object Tracking" in ECCV Workshop 2016

Goutam Bhat, Joakim Johnander, Martin Danelljan, Fahad Shahbaz Khan, Michael Felsberg."Unveiling the Power of Deep Tracking" European Conference on Computer Vision (ECCV) 2018

版权文章,未经授权禁止转载。详情见 转载须知 。

目标跟踪最强算法开源:商汤SiamRPN系列解读


本文地址: https://www.gpxz.com/article/ee0428994f302a854000.html
全局中部横幅
全局中部横幅
在线图片压缩!支持GIF动图压缩

在线图片压缩!支持GIF动图压缩,PNG压缩,JPG压缩。精确控制照片的长宽和大小(例如413像素x626像素,大小:100KB)。无需下载,在线体验,压缩后图片仍保持清晰。图好快出品!

辽宁孚泰化工机械有限公司官网

辽宁孚泰化工机械有限公司主营主动封隔器被动封隔器 封隔膜LMU氮气包 气囊隔膜橡胶密封件特种橡胶制品

青岛中兴盛智能科技有限公司

青岛中兴盛智能科技有限公司坐落于风景优美的青岛市。公司成立于2003年,主要从事自动化及工业机器人系统集成及智能装备的设计与研发,致力于汽车装备自动化生产线、智慧工厂智能仓库,港口设备电器自动化、工业视觉检测设备等,为客户提供先进的高端智能制造装备与系统集成解决方案,提供从研发、设计、制造、项目管理等一整套解决方案。公司长期为国内外知名车企提供数字化工厂解决方案、智能输送设备、白车身柔性焊装生产线、工厂自动化系统。秉承为客户至上的理念,长期服务于上汽通用、上海汽车、上汽通用五菱、比亚迪、上汽大通等知名制造领导厂商,成为他们的重要合作伙伴和优秀供应商。

南京证件照

南京一人一伴证件照:位于南京市新街口长江路九号街区,专业拍摄枫叶卡、移民照、签证照、形象照、求职照、简历照、闺蜜照、结婚证照、驾驶证照、学生证件照等全面证件照服务。我公司为专业摄影团队、100万注册资金、产权接待门店、证件照注册商标等独一无二优势,为您精心打造精致完美证件照。

环博云官网

MYB2B系统是基于PHP+MySQL的B2B(电子商务)行业门户解决方案

威克士专业电动工具

威克士专业电动工具是宝时得旗下的高端电动工具品牌,产品涵盖:角磨机,电锤,电钻,砂光机,云石机,锂电类电动工具等系列。联系我们:4008879955

秸秆瓦生产厂家

秸秆瓦又称秸秆纤维超强聚酯瓦,高端新型屋面瓦,具备防腐,隔热,隔音,防火屋面瓦,坤宝建材厂家批发,厂家直销秸秆瓦价格,30年不褪色,使用寿命长达50年,环保秸秆瓦视频图片,免费热线:028-82746648/18708182581

首页

TAPOLE是你在眼镜行业的朋友,提供了极其方便、极具性价比的线上配镜服务,解决你在眼镜上的一切麻烦。TAPOLE设计出时尚且精致的镜框,并配备全球顶级的光学镜片和近视太阳镜片。同时,提供了免费在家试戴、微信私人眼镜顾问等人性化的服务。TAPOLE正在让更多人用上第一副好眼镜。

【国风网络

国风网络-20年专注于内蒙古网站建设,呼和浩特网站建设,服务众多客户.主要业务:可信网站验证,域名注册,企业邮局,企业QQ,400电话,通用网址.免费热线:400-9999-919,致力于发展内蒙古网站手机建设,呼和浩特网站建设,内蒙古网站制作,微信小程序开发,内蒙古考试系统

北京安图生物工程有限公司

北京安图生物工程有限公司成立于2009年,位于北京市顺义区。公司专注于临床生化体外诊断领域,是一家集体外诊断生化产品研发、生产、销售、服务为一体的创新型国家高新科技企业。

腾讯云技术教程

腾讯云百科专注腾讯云CVM云服务器使用教程,包括腾讯云服务器/腾讯云数据库/腾讯云大禹BGP/云镜/腾讯云域名/腾讯云备案等帮助教程

爱站统计

免费、易用、专业的网站数据统计与营销分析平台,实时监测,精准洞察,专注用户行为分析,助力业务增长,提供更加精准全面的来路统计分析、数据报表可视化、网站分析能力、事件分析和渠道追踪归因,助力网站持续增长和赋能决策,站长和开发者的信赖选择。


全局底部横幅