2019 机器学习如何做好分布外异常检测 论文提出了方法 NeurIPS 谷歌这篇 (2019机器人世界杯)

雷锋网 AI 科技评论按:对于机器学习而言,区分异常数据或有显著差异数据至关重要。谷歌在NeurIPS 2019 论文中提出并发布了针对基因组序列 OOD 检测的现实基准数据集,进而提出一种基于似然比的解决方案,可显著提高 OOD 检测的准确性。AI 科技评论将谷歌对该方法的官方解读编译如下。

深度学习科学家要成功部署机器学习系统,需要系统能够区分出异常数据或与训练中使用的数据有显着差异的数据。

由于深度神经网络分类器可能会将 以高置信度将分布外(ODD)的输入分类到分布内的类别中, 因此区分异常数据或有显著差异数据是十分重要的。当我们利用这些预测为现实决策提供依据时,异常数据检测将尤为重要。

例如,将机器学习模型应用于基于基因组序列的细菌检测,就是一项具有挑战性的现实应用。细菌检测对于败血症等传染病的诊断和治疗,以及食源性病原体的鉴定都非常关键。

近些年来,随着新细菌种类不断被发现,虽然基于已知分类训练的神经网络分类器通过交叉验证达到了很高的测量准确性,但部署模型仍具有高的挑战性,因为现实数据在不断进化发展,并且将不可避免地包含以往训练数据中从未出现过的基因组(OOD 输入)。

机器学习如何做好分布外异常检测?谷歌这篇 NeurIPS  论文提出了方法

图1 近些年来,随着新的细菌种类逐渐地被发现。将已知的分类数据输入基于已知分类数据训练的分类器能够达到很高的准确性,这是因为输入的分类数据是已知的,但它可能将已知分类数据中混合了未知分类数据(如:ODD 数据)的输入进行错误的分类,并且具有很高的置信度。

在 NeurIPS 2019 发表的论文《分布外检测的似然比》(Likelihood Ratios for Out-of-Distribution Detection) 中,谷歌受到上述新细菌种类检测这类现实问题的启发, 提出并发布了针对基因组序列 OOD 检测的现实基准数据集。

他们利用基于基因组序列的生成模型测试了 OOD 检测的现有方法,发现似然值——即输入来自使用分布不均数据进行估算的分布数据的模型概率——通常是错误的。在最近的图像深度生成模型研究工作中,他们也观察到了这种现象,并通过统计背景影响来解释这种现象,进而提出一种基于似然比的解决方案,可以显著地提高 OOD 检测的准确性。

一、为什么密度模型无法应用于 OOD 检测?

为了模拟实际问题并系统地评估不同的方法,他们建立了一个新的细菌数据集,使用的数据来自 美国国家生物技术信息中心(NCBI )对外开放的原核生物目录基因组序列数据。

然后,他们基于分布内的基因组序列训练深度生成模型,通过绘制似然值曲线,检验模型辨别输入的分布内和分布外数据的能力。 OOD 序列似然值的直方图与分布内序列似然值高度重合,则表明生成模型无法区分在两个种类之间进行的 OOD 检测结果。

图像深度生成模型的早期研究中( 相关阅读参考:)也得到了类似的结论。例如,利用 Fashion-MNIST 数据集(由衣服和鞋类的图像组成)训练 PixelCNN ++ 模型,比来自 MNIST 数据集(包括数字0-9的图像)的 OOD 图像分配了更高的似然值。

机器学习如何做好分布外异常检测?谷歌这篇 NeurIPS  论文提出了方法

图2 左:分布内和分布外(OOD)基因组序列的似然值直方图。 似然值未能分辨出分布内和OOD基因组序列。 右:Fashion-MNIST 数据集训练模型、MNIST 数据集估计的似然值直方图。 模型在OOD(MNIST)图像上比在分布内图像分配了更高的似然值。

在研究这种失败模型时,他们观察到背景统计可能影响了似然值的计算。为了更直观地理解该现象,假设输入由两个部分组成:(1)以背景统计为特征的背景成分,(2) 以指定于分布内数据专用的模 式为特征的语义成分。

例如,可以将 MNIST 图像建模为背景加语义。当人类解读图像时,可以轻松地忽略背景信息而主要关注语义信息,例如下图中的“ /”标记。但是当为图像中的所有像素计算似然值时,计算结果中同时包括了语义像素和背景像素。虽然他们只需使用语义的似然值进行决策,但原始的似然值结果中可能大多数都是背景成分。

机器学习如何做好分布外异常检测?谷歌这篇 NeurIPS  论文提出了方法

图3 左上:Fashion-MNIST 的示例图像。 左下:MNIST 的示例图像。 右:MNIST 图像中的背景和语义成分。

他们提出了一种去除背景影响并专注于语义成分的似然比方法。

首先,受遗传突变的启发,他们利用扰动输入方法训练背景模型,并通过随机选择输入值的位置,将其替换为另一个具有相等概率的值。 为了成像,他们从从256个可能的像素值中随机选择输入值;针对DNA 序列,他们从四个可能的核苷酸(A,T,C或G)中选出输入值。此过程中, 适量的扰动会破坏数据的语义结构,导致只能捕获到背景。

接着,他们计算完整模型与背景模型之间的似然比,去掉了背景成分,这样就只保留了语义的似然值。似然比是背景对比得分,即它抓住了语义与背景对比的意义。

为了定性评估似然值与似然比之间的差异,他们绘制了在 Fashion-MNIST 数据集和 MNIST 数据集中每个像素的似然值和似然比值,创建了与图像相同的尺寸的热图。

这使他们可以分别直观地看到哪些像素对于这两项值的贡献最大。从对数似然热图中可以看到,对于似然值而言,背景像素比语义像素的贡献更多。

事后看来这并不足为奇,这是由于背景像素主要由一连串零组成,因此很容易被模型学习。

MNIST 和 Fashion-MNIST 热图之间的比较则说明了为什么 MNIST 返回更高的似然值——仅仅是因为它包含了更多的背景像素!相反,似然比的结果更多地集中在语义像素上。

机器学习如何做好分布外异常检测?谷歌这篇 NeurIPS  论文提出了方法

图4 左:Fashion-MNIST 和 MNIST 数据集的对数似然热图。 右:Fashion-MNIST 和 MNIST 数据集的似然比热图,具有更高值的像素会具有更浅的阴影。 似然值主要由“背景”像素决定,而似然比则集中在“语义”像素上,因此更适合用于 OOD 检测。

这种似然比方法修正了背景影响。他们基于 Fashion-MNIST 训练 PixelCNN ++ 模型,然后在 MNIST 图像数据集进行 OOD 检测,实验结果得到了显著改善,AUROC 评分从 0.089 提高至 0.994 。

当他们将似然比方法应用于基因组基准数据集这一极具挑战的问题时,对比其它 12 种基线方法,该方法表现出了最佳性能。

不过他们也表示,尽管该似然比方法在基因组数据集上达到了最先进的性能,但离将模型部署到实际应用中的高准确性要求仍存在一定距离。 他们鼓励研究人员努力去解决这一重要问题,并改善当前的最新技术。

via

原创文章,未经授权禁止转载。详情见 转载须知 。

机器学习如何做好分布外异常检测?谷歌这篇 NeurIPS  论文提出了方法


本文地址: https://www.gpxz.com/article/f7224502587596906480.html
全局中部横幅
全局中部横幅
首页

临海市金宇油压器材厂创建于二OO一年,位于江南历史文化名城临海。主要生产液压软管总成、液压钢管总成、特氟龙软管总成、树酯管总成、过渡接头及其他非标定制流体连接件,企业建筑面积3000平方米,5条现代化生产线,年产液压油管总成可达100万套。产品广泛应用于工程机械、农业机械、注塑机械、车辆、起重机械等工业自动化液压系统。目前拥有德国UNIFLEX(优力福莱克斯)、芬兰FINNPOWER(芬宝)世界一流软管总成生产线,德国MAXIMATOR(麦格斯维特)测试台等齐全的检测和试验设备,先进的设备和技术及严格的生产过程控制管理,在吸取国内外先进技术、工艺的基础上,集多年来在液压行业的丰富经验与日趋完善的产品种类,以确保产品质量的标准及可靠性达到一流水准。目前已与多家知名主机厂配套合作。我们将以优质的产品和专业的全面服务来真诚的与各界朋友展开广泛的合作,一如既往秉承质量第一、客户至上、严谨认真的工作态度,致力于每一位客户得到价值和满意。

香蕉的功效

香蕉是一种常见的食材,豆果美食食材百科为您整理了香蕉的别名,基本信息,适宜人群,不宜人群,搭配禁忌,香蕉的功效与作用,香蕉的烹饪技巧等信息,让您做出美味的香蕉。

搜狐闪电邮箱移动版

搜狐免费邮箱-中文邮箱著名品牌,强大的反垃圾邮件系统为您过滤近98%的垃圾邮件

无线网络认证计费系统

蓝海卓越,高校无线认证,PORTAL认证,有线计费,代拨网关,智能DHCP,防代理,防私接,无线计费,校园准入准出系统,5G专网,无线AC,无线AP

四川恒博钢结构工程有限公司

现有七个现代化钢结构生产车间,五条完整的专业钢结构系统生产线,总建筑面积4.5万平方米,年产量3.5万吨。是一家拥有钢结构工程专业承包壹级资质的综合性钢结构生产企业

上海高低温试验箱厂家

上海林频仪器是高低温试验箱,高低温测试箱,高低温箱,冷热冲击试验箱等环境试验设备高新技术企业,专业研发生产高低温试验箱等产品,凭借成熟的生产基地和极高的市场信誉度成就行业领先品牌!.具体价格咨询:021-60509999或15901751588。

迷你仓

江门市聚信金属制造有限公司是一家制造迷你仓、自助仓和迷你仓卷闸趟门的迷你仓加工厂。欢迎来电咨询和洽谈工作。

甘肃钢瓶

甘肃兰州气宇商贸有限公司是甘肃钢瓶是西北地区的供应商,电话:13609339339,主要有氧气瓶、氮气瓶、氩气瓶氢气瓶、丙烷瓶、杜瓦罐、液氨瓶、液氯瓶等,其产品在甘肃兰州、青海西宁、西藏拉萨、宁夏银川等地深受广大客户的好评,尤其是兰州气瓶产品质量有,并具有充足的产品库存,能够打造符合不同用户需求的钢瓶,提供面、及时、准确的体化服务。

符号查

符号查提供:特殊符号,箭头符号,标点符号,星星符号,拼音符号,爱心符号,心形符号,三角形符号,括号符号,对错符号,单位符号,数学符号,编号符号,序号符号,圆圈符号,星座符号,生肖符号。

CRM系统

微梦CRM,开源免费CRM,智能化移动在线CRM系统.整合HR人力资源系统+进销存+财务管理,构建新一代CRM客户关系管理系统,助力企业业绩增长.CRM试用热线:400-0812-558

奇精机械股份有限公司

奇精机械股份有限公司是一家具有持续创新能力的多元化智能制造企业,现已形成家电零部件、汽车零部件及电动工具零部件三大业务的产业格局。总部位于浙江宁波,并在宁波宁海、合肥、上海、泰国等地设立多家子公司...

全局底部横幅