北京大学王亦洲分享 基于对抗博弈的主动跟踪算法研究 (北京大学王亦洲)

文章编号:42013 资讯动态 2024-12-03 跟踪算法 ATEC IEEE 网络安全 x

IEEE x ATEC科技思享会是由专业技术学会IEEE与前沿科技探索社区ATEC联合主办的技术沙龙。邀请行业专家学者分享前沿探索和技术实践,助力数字化发展。

在社会数字化进程中,随着网络化、智能化服务的不断深入,伴随服务衍生出的各类风险不容忽视。本期分享会的主题是《网络欺诈的风险与对抗》。五位嘉宾将从不同的技术领域和观察视角,围绕网络欺诈场景下的风险及对抗技术展开分享。

以下是王亦洲教授的演讲。

北京大学王亦洲分享:基于对抗博弈的主动跟踪算法研究

演讲嘉宾 |王亦洲

北京大学博雅特聘教授、前沿计算研究中心副主任

ATEC科技精英赛高级咨询委员会专家

《基于对抗博弈的主动跟踪算法研究》

大家好,我是北京大学的王亦洲。今天我将主要介绍如何构建多智能体博弈机制,以实现鲁棒的主动目标跟踪。具体而言,我将先简要介绍主动目标跟踪任务和虚拟环境等前期工作,再重点介绍四种多智能体博弈机制用于主动目标跟踪。

主动跟踪简介

主动跟踪在日常生活中是一种较为常见的现象和技能,比如自动驾驶的跟车、无人机在天空跟踪一些目标、视频监控时锁定一些目标、云台照相机跟踪动作等。在计算机视觉领域,主动跟踪也是一个比较前沿的研究课题。但要真正实现主动目标跟踪,会遇到很多不同的挑战。比如,在录制一些比较惊险刺激的特技镜头时,摄影师不仅要让相机对准演员,还要同步适应复杂的地形环境,调动四肢跟随演员移动,其技术难度可能要比演员表演特技还高,并且在整个过程中,从感知到动作都需要十分快速精准执行。然而,这对于现阶段的机器人而言,几乎是一件不可能完成的任务。要真正实现复杂场景下的主动目标,我们的模型需要适应多样的工作环境(包括不同的天气、光照条件);还要克服障碍物遮挡(即避障),比如遇到障碍物时,要找到最短路径绕过障碍物;也要克服动态干扰物的影响,避免混淆。如果是多相机跟踪的场景,还需考虑如何实现高效的多智能体协作,这些都是主动跟踪的一些挑战。传统的方法,主动跟踪分成两个部分,一个是叫这个passive tracker,算法先对这个输入的图像锁定里面的目标物体,比如以bounding box的形式,根据bounding box的运动,然后再输入到控制器里面,调整照相机的运动。

我们提出的方法,是一个端到端(End-to-End)跟踪方法。输入图像序列,直接输出动作。感知和决策可以同步优化,互相适应,对应的中间表示也会更加紧凑。要训练这种端到端的感知—决策网络,当前流行的有两种方法,一种是模仿学习Imitation Learning(IL),一种是强化学习Reinforcement Learning(RL)。模仿学习样本效率会高一些,但是需要引入专家数据进行训练,且不可避免的存在数据分布的偏差,模型的泛化性会比较差。对于跟踪模型来说,模型的泛化能力是至关重要的。因此我们采用强化学习,我们只需要设计一个简单的奖赏函数,机器人在环境中自主探索,就可以在试错中学习技能。

有效虚拟环境的构建

我们让机器人在一个场景中运动时,如果是一个真实的场景,因为机器人的成本高,机器人在场景中运动时或许会造成一些损坏,实验的负担也比较大,所以代价非常高昂。我们提出构建UnrealCV虚拟环境,让机器人在里面进行主动学习,我们可以从中获取高逼真的视觉观测、精准的ground truth、以及进行实时的交互,包括多智能体的交互。这个项目已经开源。因为我们日常生活中的环境是多变的,在近真实的环境当中可以模拟日常生活环境的一些变化,不光是室内的还有室外的、室外天气的变化、室内光照的变化,环境的各种appearance、各种texture,甚至还有物理属性都可以调整。在虚拟环境中不仅可以学到地球上的物理,甚至可以学习火星上、月球上的物理。所以这种近真实的环境,尽管可能是对真实环境的一种建模、某种意义上的一种简约,但其实它有更丰富的potential,能够更多地改变环境,让机器人能够适应各种变化,在这里面学的技能有可能泛化能力更强。因此,我们认为机器人或智能体所处的环境复杂性决定它最终训练出来的智能水平。

下面我将简单介绍一下,把认知心理学的一些机制引入到主动跟踪场景下,提高跟踪器的跟踪水平的一系列工作。我将介绍四种工作:第一种是一跟一的跟踪;第二种还是一跟一,但是会有一些和目标非常相似的干扰物进来;第三个工作是多个摄像头跟踪一个目标;最后一个是多跟多,比如N个摄像头跟M个目标物体。

一对一的跟踪策略

首先介绍一跟一。在一跟一里面我们引入了Theory of Mind(心智理论),心理学的一种机制,它是人类所具有的能够认知别人的心理状态的一种本领,比如我在跟别人交流过程中我能够知道对方的信念、意图、甚至他的知识。有了这种能力,能够帮助多智能体提高交流的效率。我们将这种机制应用到主动跟踪的过程当中。这里面的目标和跟踪器,是两个进行竞争的agents。目标的任务就是逃跑,从跟踪者的视野当中逃掉;跟踪者要始终锁定目标,他们俩成了一个博弈对。我们在这里面引入了Theory of Mind,产生一个更聪明的逃跑者,它不光要根据自己看到的环境来选择路径,他还能够知道跟踪者现在所观察到的一些景象,猜测跟踪者的策略是什么。即在脑子里猜想你会怎么跟踪我。把Theory of Mind引入到跟踪的博弈当中,我们希望能够训练出Target有更好的摆脱策略。因为它们的能力都是从零开始同步增长的,逃跑者与追踪者在学习的过程当中能力此消彼长。这个博弈机制是非对称的,因为我们的最终目标是为了训练跟踪器,因此我们将围绕如何训练一个更适合跟踪器学习的目标模型改进我们的对抗机制,包括了奖赏函数结构和目标的模型设计。

要实现竞争机制,最关键的是要设计奖赏函数(Reward Structure)。一般来说,纯对抗竞争的奖赏函数,就是一个零和奖赏结构。但如果是零和博弈的话,目标会在一开始就跑的很远,这反而导致跟踪器学习效率降低。因此,我们考虑当目标移动到观测范围外,将在原来的基础上增加一个额外的惩罚项,惩罚项的取值取决于目标与跟踪器的观测边界的距离。为了让目标能够学到有针对性的对抗策略,我们进一步提出了tracker-aware target。它的设计思想就是孙子兵法中的知己知彼,百战不殆的思想。如果从认知心理学的角度来说,就是要去理解预估对手的mental state/ intention,只要比对手多一阶的思考,就可以找到有效的对抗策略。比如说,当跟踪器根据图像推测估计目标要从画面中心往左走时,它就会倾向于向左转。如果此时我们的目标能多思考一阶,能够想到跟踪器有向左转的倾向,那么它就可以反过来输出一个向右转的动作,就可以导致跟踪误差增大。具体实现时,我们就让目标除了其自身的视觉观测外,还额外获得了跟踪器的观测和动作输出作为模型的输入。我们在这里还引入了一个辅助任务,也就是预测跟踪器的即时奖赏值,来对跟踪器的动态特性进行隐式的建模。我们把这个算法放到了包括城市环境、下雪的村庄、地下车库、花园以及城市街道的近真实的虚拟环境中,随后发现,尽管我们是在不真实的虚拟环境下训练的,但是迁移到近真实的虚拟环境下,还是能够非常好的跟踪到目标物体。

一对多的跟踪策略

接下来还是一对一的跟踪,但是有了干扰者的参与,也就形成了一种一对多的博弈机制。例如在足球直播中,跟踪器会将边线裁判的光头误识别成足球。同时,我们在实验中发现,现有的SOTA模型也十分容易被场景中相近的物体误导迷惑,最终导致跟丢。针对此问题,我们提出了一种混合博弈的解决策略,里面包括了Targets和Tracker的竞争关系,还有干扰者和Targets之间的合作关系,即他们要合作起来一起欺骗Tracker。Reward方面,Targets和Tracker,可以是零和博弈或者是前面介绍的混合Reward Structure;Distractor和Target 之间形成一个合作策略。Distractors的奖赏是它是不是能够吸引Tracker的注意,是不是跑到了Tracker视野里比较中心的位置,越靠近中心越说明Tracker把它认成了Target,它这时候获得的Reward就更高。所以在这种Reward Structure下面,我们训练Tracker、Target和Distractors,它们各有各的策略。我们采用了两种训练方法,一种是在抽象的环境下先训练Meta Policies,有了这个Meta Policies以后,它作为一个teacher,这时我们引入视觉输入来训练作为student在真实视觉环境下面如何跟踪。这时候student的跟踪策略要和作为teacher的Meta Policies的策略相接近。我们用K-L Divergence来描述他们的差异,我们要minimize这个差异,通过这两个训练过程,最后训练出三种角色各自的策略。我们发现在训练过程中,出现的干扰现象越来越多。也就是说Distractors越来越会参与干扰了,它的干扰技能提升了。一些SOTA或者一些现有的先进方法在这个过程当中,随着干扰的增多,它们的performance就下降了。我们提出的这个方法,它的performance不太受干扰的一个影响。在混合博弈下面,最后训练出的Tracker和现有的一些方法有明显的优势。

多对一的跟踪策略

接下来是多个摄像机跟踪一个Target,这种场景通常发生在一个video surveillance的情况下。在此场景里有一个可疑人物或目标人物,我们在大范围场景下面布置多台摄像头,场景里面非常复杂、容易有这种障碍物,它能够利用这些障碍物进行隐蔽,这时能不能在多个摄像头下始终不把它给丢掉。这里我们引用了一种心理学的机制,叫Herd mentality(羊群效应),即一种从众心理,就是一个人在人群中决策时,往往会受到多数人的干扰,产生从众心理。假如在这个环境中,我们布置了四个摄像头,如果有三台摄像头能够比较好地看到Target,即使有一个摄像头因为遮挡的原因目前看不到,它根据其他三个摄像头的指向,也能把这个摄像头的角度瞄准到他们指向的位置。这时候,当Target出现时,它就能够很快地恢复跟踪,这样对整个系统的跟踪的稳定性会有所提升。对于这种情况,我们设计了一个模型。跟踪模式分为两种,在可见目标情况下采用基于视觉的跟踪。看不到的情况下,会根据其它摄像头的pose指向的位置决定该跟踪器所指向的位置,有一个Switcher决定采用哪个跟踪模式。我们在这个环境当中把它部署下去,发现跟踪的效果也非常好。

多对多的跟踪策略

最后看一下多个摄像头跟踪多个目标的模型。它其实是解决一个coverage的问题,比如四个摄像头要跟踪六个物体时,在资源有限情况下,能够最大程度把这个物体给覆盖住。这里面我们采取的机制是hierarchical机制。在社会形成结构的过程中,有一些是leader,有一些是稍微处在底层一点的执行者。这种分层机制可以对复杂任务进行结构化分解,具有分工明确、理性决策、权责划分清楚等优点。因此,我们考虑借鉴这种机制,设计一种可计算多智能体分层模型。该框架主要分两层,包括了一个集中式的协调者(coordinator)和多个分布式的执行者(executor)。当运行时,协调者收集各个执行者的观测信息,进行全局规划,为每个执行者分配特定的任务目标, 也就是指定需要跟踪的具体目标;每个执行者在分配到具体任务以后,通过采取一系列基本动作(即左转/右转/保持不变)来成指定的跟踪任务。然后重复这两个步骤。这样,目标覆盖问题将分解为不同时间尺度的两个子任务,也就是目标分配和目标跟踪。此时,协调者和执行者均可以直接采用当前流行的单智能体强化学习方法进行训练优化。这里,协调者的团队奖赏取决于覆盖率;每个执行者的奖赏只跟相机与被分配的目标之间的角度偏差有关。

为了实现可扩展泛化的分层结构,我们仍需要克服两个挑战:1)对于协调者,需要能够灵活处理可变数量的传感器和目标之间分配,因为不同场景下相机网络和目标分布会有很大差异;2)对于执行者,需要能够在给定任何目标组合时,都能表现良好。就像军队中的士兵要无条件服从上级命令,执行任务。为此,我们采取了一系列实用方法来应对这些挑战,采用了自注意力模块来处理变长的输入并获得一个与输入顺序无关的状态表示。为了更好的估计全局价值,我们对每一对传感器——目标分配的边际贡献(marginal contribution)进行了近似估计(approximate marginal contribution, AMC),从而更精确地估计和分解全局价值,引导协调者学习更有效的分配策略。对于执行者,提出了基于目标条件的过滤器以去除与被分配目标无关的观测信息,从而提高执行者策略的鲁棒性。考虑到训练的稳定性,整体训练策略采用了二阶段分步训练方式进行。对目标集进行采样,生成伪目标来训练执行者策略;然后利用现有的执行者策略来训练协调策略。从而避免共同训练时,协调者和执行者因探索时不可避免的随机性导致训练不稳定。

最后,我们把Theory of Mind也引入到这个工作里面。这种猜想和协商的机制,我们管它叫ToM2C(Target-oriented Multi-agent Communication and Cooperation with Theory of Mind)。要解决一个问题,给定输入以后,我们通过融合其他人的输入来猜想其他人想跟踪的目标,再有选择地和目标不一致的对象进行沟通,最后在Decision Maker的module来最终决定谁跟谁的策略,最终取得了非常好的跟踪效果。

总 结

我们把心理学的认知机制和博弈论结合在一起来解决主动跟踪问题,一系列工作取得了比较好的一个跟踪效果。对于长期目标,我希望融合机器人学、博弈论、信息论、社会心理学等领域知识,最终构建多功能、会合作、有温度的通用机器人,服务人类社会发展。我的报告就到此结束,谢谢大家。

版权文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/56540b58bbfe2312c47d.html
全局中部横幅
全局中部横幅
域名反查

域名邮箱反查是站长工具提供的功能,查询特定邮箱地址所注册的域名信息。通过邮箱反查,您可以了解到相关域名的注册者、电话、注册商、DNS、注册时间、过期时间等信息。该功能可以全面了解该邮箱所关联的域名Whois信息及网站信息。

北京市气象局

北京市气象局由北京市国家气象系统各级管理机构实行上级主管气象机构与本级人民政府双重领导,以上级气象主管机构领导为主的管理体制。在上级气象主管机构和本级人民政府的领导下,根据授权承担北京市行政区域内气象工作的政府行政管理职能,依法履行气象主管机构的各项职责。

快米房产网

快米房产网是致力于快米地区的专业房地产信息网,是集快米新楼盘报名、快米二手房信息、快米出租房信息、快米小区大全、快米房产中介信息等的房产信息网。

重庆分类目录网

重庆分类目录网站是专注收录各行业优秀的网站!提供网站分类信息检索、整理目录分类排序、按目录行业分类或关键词搜索查询;同时也是网站推广、网站排名、发布外链及提高网站权重等的分类目录平台。

天津政采商城

天津市南开区吉祥明立五金销售中心

蜗牛市政是一级建造师培训平台

蜗牛市政是一个一级建造师培训、二级建造师培训平台,并提供市政建造师高清免费视频教程,整理一建市政及二建市政的历年真题及答案、施工图片及视频、证书挂靠、考试教材以及考试报名相关信息

咪咕体育直播

咪咕体育直播咪咕NBA直播在线免费观看,咪咕体育直播平台,NBA球迷的专属乐园。咪咕体育直播高清画质,提供NBA直播、CBA直播、英超直播等免费畅享每一场激烈对决,随时随地与全球球迷共享篮球盛宴。

高声电子

数字会议系统,手拉手会议话筒,无线会议话筒,会议系统设备,会议系统厂家,广东会议系统厂家,中控主机,中控系统厂家,音频处理器,电源控制器,时序器,音视频产品解决方案,广东恩平数字会议系统设备厂家,广东会议系统设备制造商,5GWIFI手拉手无线会议话筒,智能中控系统,音视频矩阵系统

东西志览国际文化发展无锡有限公司

东西部小动物临床曾医师大会是非盈利的公益性大会,是小动物临床综合性的大会

青岛捷通达物流有限公司

青岛捷通达物流有限公司位于美丽的海滨城市青岛,坐落在黄海之滨、浮山之麓,依山傍海,风景秀丽,业务覆盖江苏、浙江、河南、河北、山东、东北等全国各地。公司拥有170辆危险品专业运输槽罐车,其中68辆车带有保温,危险废物厢式车26辆,危险废物罐车15辆,医疗废物运输车20辆,丙烯和压缩气体车15辆,箱式货车26辆,驾押人员300多名。

十年网站建设

十年品牌是专业的烟台网站建设公司,是知名的烟台网站设计公司,提供包括网站策划、网站设计、网站制作、微信开发、移动端开发在内的多项网站建设服务,联系电话:400-123-4567。

自动

广州宏飞自动化设备有限公司成立于2008年,以工业自动化设备为主营。从自动化设备的调研、规划、设计、制造、调配及售后服务,全程一站式解决方案及服务,并根据客户的要求进行优化。,我们主要经营和广州自动化设备,广州自动化机器,广州测漏设备,广州组装自动化设备,广州焊接设备,广州切断设备,广州焊接夹具,广州机械人夹具,广州卷圆机,如果有兴趣请联系我们公司广州宏飞自动化设备有限公司,我们会以好的质量有竞争力的价格是您的优选!


全局底部横幅