2022 新型图数据增强方法 杰出论文 G ICML 莱斯大学胡侠团队 (2022新型材料合集)

文章编号:41866 资讯动态 2024-12-03 G 图神经网络 泛化性 Mixup
莱斯大学胡侠团队 ICML 2022 杰出论文: 新型图数据增强方法 G-Mixup|附作者对话

近日,备受关注的第十九届机器学习国际会议(ICML 2022)在美国马里兰州巴尔的摩市举办。自新冠疫情以来,大会首次恢复线下形式,采取线上线下结合的方式举办。



ICML2022概况

15 篇杰出论文奖和 1 项时间检验奖。 复旦大学、上海交通大学、厦门大学、莱斯大学等多个华人团队的工作被评位杰出论文奖。 ICML 2012 的一篇论文《PoiSONing Attacks against Support Vector Machines》获得了时间检验奖。

今年的杰出论文奖不同寻常,评选数量多达 15 篇。而同样是 21% 左右的接 篇杰出论文,去年则仅有1篇。

本文我们来关注一下今年获奖的一篇优秀工作。AI 科技评论此次采访到 获得杰出论文奖的莱斯大学胡侠团队, 为我们解读他们的研究工作。该团队的获奖论文题目为:

莱斯大学胡侠团队 ICML 2022 杰出论文: 新型图数据增强方法 G-Mixup|附作者对话

在这项研究中,作者提出了一种新的图数据增强方法: 提高图神经网络的泛化性和鲁棒性。

胡侠,现任美国莱斯大学终身副教授,数据科学中心主任,AIPOW联合创始人兼首席科学家。其主导开发的开源系统AutoKeras成为最常用的自动机器学习框架之一(超过8000次star及1000次fork),开发的NCF算法及系统(单篇论文他引3000余次)成为主流人工智能框架TensorFlow的官方推荐系统,主导开发的异常检测系统在通用、Trane、苹果等公司的产品中得到广泛应用,研究工作多次获得最佳论文(提名)奖。




获奖工作G-Mixup介绍

图数据在我们的现实生活中无处不在,我们可以使用图来建模和描述各种复杂网络系统。而为了将图数据应用于具体任务,我们首先需要对图数据进行表征。近年来,通过深度学习技术对图数据进行表示学习的图神经网络(GNNs),在节点分类任务上取得了最优性能,因而已被广泛用于图形分析。同时,数据增强(data augmentation)和 Subgraph(子图)也被用于图分析,它们通过生成合成图来创建更多训练数据,以提高图分类模型的泛化性能。

当前流行的数据增强方法 Mixup 通过在两个随机样本之间插入特征和标签,在提高神经网络的泛化性和鲁棒性方面显示出优越性。但是,Mixup 更适用于处理图像数据或表格数据,直接将其用于图数据并非易事,因为不同的图通常:(1)有不同数量的节点;(2)不容易对齐;(3)在非欧几里得空间中的类型学具有特殊性。

为此,提出了一种 CLAss-level 的图数据增强方法: 。具体来说,首先使用同一类中的图来估计一个 graphon。然后,在欧几里得空间中对不同类的 graphons 进行插值,得到混合的 graphons,合成图便是通过基于混合 graphons 的采样生成的。经实验评估,G-Mixup 显着提高了图神经网络的泛化性和鲁棒性。

G-Mixup 是一种通过图形插值的class-level数据增强方法。具体来说,G-Mixup 对不同的图生成器(graphon)进行线性插值以获得新的混合的生成器。然后,基于混合的新的生成器对合成图进行采样得到新的图数据以进行数据增强。改论文从理论上证明从该生成器中采样的图部分具有原始图的属性。

如图1所示,G-Mixup包括三个关键步骤: (1)为每一类图估计一个graphon,(2)混合不同图类的graphons,以及(3)基于混合的graphons采样生成合成图。

莱斯大学胡侠团队 ICML 2022 杰出论文: 新型图数据增强方法 G-Mixup|附作者对话 图 1:在二值图分类任务中,有两类不同的图 G 和 H,二者拓扑不同(G 有两个社区,而 H 有八个社区)。G 和 H 具有不同的graphons。

Graphon 估计和 Mixup 。作者使用矩阵形式的阶进函数作为graphon来混合和生成合成图。对阶跃函数估计方法,作者首先根据节点测量值将节点对齐在一组图中,然后从所有对齐的邻接矩阵中估计阶跃函数。

合成图的生成 。一个 graphon W 提供一个分布来生成任意大小的图。

G-Mixup 的性能评估

那么,G-Mixup 在真实世界的图数据上表现如何?作者团队对 G-Mixup 的性能进行了评估。

一个数据集中不同类别的图的 graphons 显著不同。 图 2 表明现实世界中不同类别的图有完全不同的graphons,这为通过融合 graphon 来生成混合的图奠定了基础。

莱斯大学胡侠团队 ICML 2022 杰出论文: 新型图数据增强方法 G-Mixup|附作者对话 图2:IMDBBINAERY 的 graphons 显示 class 1 的 graphon 有更大的密集区域,这表明该类中的图比 class 0 中的图具有更大的社区。REDDIT-BINARY 的 graphons 显示,class 0 中的图有一个高度节点,而 class 1 中的图有两个。

G-Mixup 合成的图是原始图的混合。 作者团队将在 REDDIT-BINARY 数据集上生成的合成图进行可视化,如图 3,混合 graphon(0.5∗W0+0.5∗W1) 能够生成包含高度节点和密集子图的图,这可看作是包含 1 个高度节点和包含 2 个高度节点的图的混合图。这验证了 G-Mixup 更倾向于保留来自原始图的区别性图案,其合成图确实是原始图的混合。

莱斯大学胡侠团队 ICML 2022 杰出论文: 新型图数据增强方法 G-Mixup|附作者对话

图3:在 REDDIT-BINARY 数据集上生成的合成图的可视化。

G-Mixup 可以提高 GNN 在各种数据集上的性能。 作者比较了使用 G-Mixup 的各种GNN主干网络在不同数据集上的性能。 实验结果表明,G-Mixup可以提高图神经网络在各种数据集上的性能。

G -Mixup 可以提高 GNN 的鲁棒性 。作者对 G-Mixup 的两种鲁棒性(标签腐蚀的鲁棒性和拓扑腐蚀的鲁棒性)进行研究,发现 G-Mixup 能够提高 GNN 的鲁棒性。

这项工作提出了一种名为 G-Mixup 的新型图增强方法。与图像数据不同,图数据是不规则的、未对齐的且处于非欧几里得空间中,因此很难进行混合。然而,同一类别中的图具有相同的生成器(即graphon),它是规则的、良好对齐的且处于欧几里得空间中。因此,作者转而对不同类别的 graphons进行混合来生成合成图。综合实验表明,使用 G-Mixup 训练的 GNN 获得了更好的性能和泛化能力,并提高了模型对噪声标签和被损坏拓扑的鲁棒性。




AI 科技评论对话G-Mixup作者团队

AI 科技评论:祝贺你们的研究获得ICML 2022杰出论文奖。首先,能否概括一下你们这项工作的主要贡献?

作者团队: 我们提出了 G-Mixup 来增强用于图分类的训练图。由于直接混合图是难以处理的,因此 G-Mixup 将不同类别的图的图元混合以生成合成图。其次,我们理论上证明合成图将是原始图的混合,其中源图的关键拓扑(即判别主题)将被混合。最后,我们证明了所提出的 G-Mixup 在各种图神经网络和数据集上的有效性。大量的实验结果表明,G-Mixup 能够增强图神经网络的泛化性和鲁棒性。

AI 科技评论:当时论文收到的审稿意见是怎样的?

作者团队:审稿意见总体比较 positive,不过当时审稿人对我们做数据增强的意义有一点疑问,我们对此作了详细的解释,比如就训练而言,有时训练数据集特别少,我们就可以用数据增强来获取更多的数据。审稿人在最后的意见中也表明认识到了数据增强的重要意义。

AI 科技评论:与以往的Mixup方法相比,G-Mixup的不同之处在什么地方?

作者团队: Mixup 技术主要应用在图像上,已经比较成熟,它是将训练数据中的两个数据集线性地加起来,得到一个新的训练数据,从而完成数据扩增。但它在图数据上还没有一个很好的解决方案。而我们的G-Mixup 是一个简单且有效的方法,它是对不同类别的图生成器进行混合来生成合成图。

AI科技评论:与图像数据和表格数据相比,对图数据做mixup的难点在什么地方?

作者团队: 目前针对图的mixup的研究比较少,因为图数据比较难处理,它不容易表示,而且两个图的节点数量、无结构信息是不一样的,所以很难将其融合到一起。图像数据和表格数据可以表示成连续的向量或矩阵的形式,所以很容易做融合,但图数据无法表示成这种形式。

AI科技评论:为什么说G-Mixup 是一种Class-level的图数据增强方法?

作者团队: 我们是用两个类来生成一个新的类,我们用多张图来估计图的生成规则也就是图的生成器,然后对每一类图来估计一个生成器,这样来生成一个新的类别。以往针对图像的mixup是用两张图片来做,属于instance-level,但针对图的处理方法与此不同。

AI科技评论:有哪些途径可以提高图神经网络的泛化性?

作者团队: 比如设计新的网络结构,做数据增强,以及训练技巧方面的一些工作,都可以提高泛化性,我们这项工作展示的是其中一种方法。

AI科技评论:针对这项工作所研究的问题,有什么下一步的研究计划?

作者团队: 我们这项工作提出的方法主要是用于图分类任务,以后我们可以进一步考虑在节点分类任务上做融合,节点分类也是图神经网络方面的一个重要任务。

AI科技评论:这次获得杰出论文奖,有没有什么经验、体会可以分享?

作者团队: 首先文章的写作质量要好,要将研究清楚地表述出来;研究的 idea 要十分合理;以及,研究问题本身要有意义和价值。

AI科技评论:这项研究的成果对相关领域有怎样的影响?有哪些实际应用的价值?

作者团队: 由于图数据的本身特性,使得mixup这个在其他数据上很有效的方法不能直接适用在图数据上,我们提出的g-mixup使用了图生成器去融合图数据,实现了class-level的图数据mixup, 希望能对图数据的mixup能有一定的启发作用。希望提出的方法能够在图生成,新药物发现方向能有一定的启发。

更多内容,点击下方关注:
莱斯大学胡侠团队 ICML 2022 杰出论文: 新型图数据增强方法 G-Mixup|附作者对话 莱斯大学胡侠团队 ICML 2022 杰出论文: 新型图数据增强方法 G-Mixup|附作者对话

版权文章,未经授权禁止转载。详情见 转载须知 。

莱斯大学胡侠团队 ICML 2022 杰出论文: 新型图数据增强方法 G-Mixup|附作者对话


本文地址: https://www.gpxz.com/article/65edd799b7e75e9264de.html
全局中部横幅
全局中部横幅
微播易

跨平台一站式KOL资源采买服务,以大数据驱动营销策略,解决社媒体、短视频投放触达难、精准难、效率难、ROI难等投放问题。网聚超100万达人网红,跨越25+主流平台,已服务宝洁、雅诗兰黛、京东、蒙牛、伊利等2000+国内外知名品牌。

公务员考试

【华图国家公务员考试网】提供2026国家公务员考试,2026国考公告、2026省考公告、国考报名时间/入口/职位表、2026省公务员考试、公务员笔试面试培训等公务员招考公告/大纲,成绩查询,笔试面试备考辅导资料,公考视频,历年试题及答案下载等公务员考试辅导培训机构。

【湖州房地产门户/房地产网】

手机房天下是中国的房地产家居移动互联网门户,为亿万用户提供全面及时的房地产新闻资讯内容,为所有楼盘提供网上浏览及业主论坛信息。覆盖全国300多个城市,找新房、找二手房、找租房,更多便捷,更加精准。

导热油,导热油专业提供厂商

上海久星导热油股份有限公司是全国知名的导热油生产单位,公司以优质的导热油产品,良好的售后服务赢得了市场,并秉承“科技创新,诚信做人”、“永“久”追求、用“星”服务”的宗旨将引领着久星在导热油领域里不断攀登新的高峰,竭诚欢迎各界朋友前来参观洽谈!

中国节能环保集团有限公司

中国节能环保集团有限公司是唯一一家主业为节能减排、环境保护的中央企业。拥有各级子公司338家,上市公司5家,分布在国内近30个省市及境外近40个国家和地区,致力于成为质量优秀的科技型服务型跨国经营企业集团。

医鹿管家

杭州原华供应链管理有限公司官网专注展示医疗器械供应链管理.服务范围涉及:医鹿管家,医鹿原以及医疗器械进销存,提供一站式数字化生意管理SAAS工具,智能云仓等服务.医鹿管家专注于为医疗机构提供品牌产品及配备技术服务.业务咨询热线15381028190.

长沙腾辉广告有限公司

长沙腾辉广告有限公司是一家集广告、装饰、标识为一体的设计、制作、服务综合性广告公司。公司拥有先进设备,高素质管理人才、设计人才团队,经验丰富专业施工队伍,及售后团队。电话:13657413759

不锈钢水箱

【泽海牌】不锈钢水箱厂家主营各类不锈钢水箱、不锈钢消防水箱、不锈钢保温水箱等;厂家直营,按需定制;不锈钢水箱价格优惠,终身售后服务;咨询电话:18932453205

77777影院

77777影院第一时间更新最新抢先电影大片、热门电视剧、最新一期综艺、热播动漫等影视资源,免费在线观看和下载尽在77777影院!

92电影网

92电影网为您提供非常好看的电影大片、当前最火的热播电视剧,精选最新最好看的动漫及综艺节目,是一个大家都喜欢的影视网站。

51相册

51相册是专业支持淘宝图片外链和批量贴图的淘宝相册,51相册免费提供图片批量添加水印和批量图片优化,是淘宝卖家专用的51相册。

古农庄

《古农庄(AncientFarm)》是A2Softworks开发的古代农耕模拟经营游戏,2026年1月8日登陆Steam发售后续将登陆PS5、XboxSeriesX|S及Switch2平台,玩家将化身古代农夫从开垦荒地起步,种植多样作物、饲养牲畜,还能体验采集、建造、锻造与烹饪玩法,享受放松的第一人称单机体验。

全局底部横幅