不可或缺 外部有效性 单考虑分布偏移远不够!真实数据很复杂 (不可或缺的因素)

单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺

数据分布偏移(data distribution shift)是可信人工智能系统热衷于考虑的一个话题,每年关于它的相关研究数不胜数。然而,仅关注分布偏移就足够了吗?

近期,纽约大学AI Now研究所的技术研究员Deborah Raji在UC伯克利助理教授Benjamin Recht的个人博客argmin上发表了对这一话题的看法。

她对于学界过度关注分布偏移感到担忧,认为更应该考虑统计上一个相关概念,即外部有效性(external vadality)。

单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺



数据分布偏移

数据偏移一直在可信人工智能上的一项“杀手锏”。例如,由美国史诗系统公司研发、被密歇根大学医院广泛应用的败血症识别模型在2020年4月由于频繁出现虚假报警,而被紧急叫停。据分析,这是因为新冠大流行导致的人口地理学特征发生了变化才使得模型出现偏差。

这是数据分布偏移的一个例子:当测试集的数据与训练集的数据分布发生变化时候,模型无法有效迁移到新的应用场景下导致出错。

这和不断变化的本质相关:真实世界的数据往往是动态的、变化的、不确定的,例如软件部署变化,人口迁移,行为变化,语言演变等,如果模型不将这些予以考虑,就会出现系统性偏差。

Benjamin Recht发表过这样一个另一惊讶的 ,他们重新按照ImageNet的数据收集方式收集了一批新的测试集,用原有的模型对新测试集进行准确性测试,发现了如下的结果:

单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺

其中,横轴代表在原始数据测试集的测试性能,纵轴代表新数据集上的测试性能,蓝色的每个点代表一个模型的结果,红色的线则是对它们的线性拟合,黑色的虚线y=x代表理论上测试结果应该具有的表现。

可以看出,尽管二者之间仍然存在线性相关,即在原数据集上表现好的,在新的数据集也表现得很好,反之亦然;然而,它们之间仍相差将近15%的差距,这就是由于数据分布偏差所导致的。这里的偏差可能来自不同的标注者偏好,不同的数据收集过程等等。




研究现状

Deborah Raji承认研究这种现象的重要性,但她认为ML的研究者们太过于执着于关注分布偏移这一话题了,以至于很多情况下将模型的任何失误都归因于了分布偏移,而她认为这是不合适的。

首先,她认为“分布偏移”这一问题有时候太过具体,有时候又不够具体。任何数据上的变化都可以认为是一种“分布偏移”,例如数据特征本身的变化、数据标签的变化以及二者都发生的变化。

另一方面,这一术语又太宽泛模糊了。“数据分布”这个概念自身就需要假设数据来自一个假象的“真实”分布中,而现实可以观察到的数据则是从这一整体分布中独立同分布的采样数据。然而这个分布是什么呢?没人知道——真实数据混乱、无序、不可预知。

数据分布偏移了,可是哪些部分发生了变化,为什么它们发生,这些都无从得知。

Deborah Raji进而警告道,对于这一术语的痴迷会如何限制ML社区的发展。一个表现是,现在的社区热衷于开发检测数据分布偏移的基准测试,以此来声称测试偏移的程度。然而这些数据是静态的、理想的,无法适应真实世界更加复杂的数据。

有些研究已经开始得出结论:过度强调数据分布偏移已经使得ML实践者和政策制定者更专注于回顾性研究(retrospective studies),而非前瞻性研究(prospective studies)。前者针对于静态收集的历史性数据而言,后者则更加着重于系统的上下文背景。

单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺

回顾性研究与前瞻性研究

为此,Deborah Raji希望研究可以更加转向“有效性”(validity)这一概念。有效性是统计中测度论(measurement theory)中的重要概念,用以衡量系统的可信赖性。有效性又包含内部有效性(internal validity)和构建有效性(construct validity)。当讨论泛化性的时候,我们更关注于外部有效性(external validity)。




外部有效性

外部有效性衡量模型如何泛化到其它场景、设定。这些测试的设定往往不是实验原有的环境,并且考虑到不仅仅是数据方面的变化。

Deborah Raji以一篇文章为例,这篇发表在JAMA的,名为“在住院患者中广泛使用的败血症预测模型的外部有效性分析”对于开头中的那个例子中的模型做了更加详尽的“外部有效性”分析。

单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺
外部有效性分析模型的论文

首先这篇文章描述了一项关于 2018 年 12 月至 2019 年 10 月期间(尤其是在大流行开始之前)使用败血症模型的回顾性研究。他们检查了接受38,455 次住院治疗的27,697名患者,发现Epic模型预测败血症发病的曲线下面积为 0.63,而“这比其开发人员报告的性能要差得多”。

此外,该工具“未识别出 1,709 名败血症患者(67%),因此造成了很大的虚假报警。”

这些研究人员正确地将这些问题描述为“外部有效性”问题,并详细研究了它们,这远远超出了“临床医生和数据集偏移”——一个静态的偏移数据集中描述的数据分布偏移。

对于Epic 系统的评估是基于 2013 年至 2015 年 3 个美国卫生系统的数据,这与密歇根大学 2018-2019 年的患者记录数据不同。但该评估不仅仅考虑数据问题,还评估了医生与模型交互的变化以及这些变化如何影响结果,以及其他与数据几乎没有关系的外部有效性因素——这远超过了数据分布偏移。

即使在讨论实质性的数据更改时,研究者们也会试图具体描述它是什么,并具体分析在他们医院部署时发生的差异。




关于作者

单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺

作者Deborah Raji是尼日利亚裔加拿大计算机科学家和活动家,她致力于研究算法偏见、人工智能问责制和算法审计。她曾与 Google 的Ethical AI 团队合作,并曾在纽约大学AI和AI Now研究所的合作伙伴关系中担任研究员,致力于研究如何在机器学习工程实践中考虑道德因素,曾于AI公正性研究的 做过同事,也曾获得过该领域多个奖项。

Deborah Raji与Ben Recht已经在这个外部有效性这一话题上已经展开了很多深入的讨论,后续关于这一问题的探讨也会陆续放在arg min的博客上,感兴趣的读者可以关注查看~

单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺

版权文章,未经授权禁止转载。详情见 转载须知 。

单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺


本文地址: https://www.gpxz.com/article/5b4a8c4c62bf19822c2a.html
全局中部横幅
全局中部横幅
钟罩淋釉器

四川汉莫尼机械设备有限公司成立于2000年,是一家集淋釉器研发制造、生产、销售和品牌营运为一体的专业化企业,本公司拥有专业的生产设备和熟练的生产技术,是采用航空技术生产钟罩淋釉器的专业厂家.

木鱼小铺

木鱼小铺是合肥一家新零售商城小程序解决方案服务商,主打新零售微信商城小程序制作,专业提供高端新零售商城小程序解决方案。致力于通过微信小程序帮助线下商家,解决经营过程中遇到的“效率、品牌、营销、数据”四大难题。

传奇私服

宝珠新服网【www.zjjbzx.com】专注收集全网最全的传奇私服游戏发布网大全、新开传奇私服版本大全,最好玩的的迷失超变传奇SF、冰雪传奇sf客户端、传奇私服游戏合集下载,欢迎热血传奇玩家前来体验!

中国投资界

中国投资界是投资与创业资讯第一门户网站,本网以专业的投资视角和丰富的信息资源,为投资创业人士、兴趣爱好者,客观快速提供国际国内焦点新闻、投资资讯、产业新闻、行业分析、社会热点等全覆盖的资讯服务。

山东邦维信息科技,全国领先的智能园区IT解决方案提供商

以京博集团先进管理模式与信息化技术相结合,石化电商危化品物流行业信息化体系,提升炼化行业,物流,港口等信息化运作效率,集合电商,电采,物流,库存,结算等业务端形成智能园区一体化解决方案,京博控股全资子公司

亲亲小保

亲亲小保,上市公司,专注行业20年,致力于通过互联网提供高效便捷的人事服务,提供人事代理、社保管理、社保托管、工资代发、个税申报、灵活用工、社会化用工、人力资源外包、工资代发、个税申报、福利保险、劳务派遣等服务

中山华力包装有限公司

中山华力包装有限公司旗下公司涉及的业务有各类纸品包装生产和设计,冷链物流解决方案和单元化循环载具领域。占地面积超13万平方,员工超1000人,年产量23万吨。主营是纸品包装研发、生产与销售。是一家集产品包装方案设计与优化、包装技术研发等等整体解决方案服务商。业务涵盖自行车、汽车、消费类电子、服装、医药、家具、食品饮料以及运动器材等,通过国家级高新技术企业认证,智能制造能力评审为二级。

一站式汇率换算网

汇率网为您提供最新、最准确的货币汇率查询服务。我们24小时不间断更新,让您随时掌握市场脉搏,轻松进行汇率换算和追踪。无论是个人旅行还是企业金融决策,全球实时汇率网都是...

顺昌大圣文化

顺昌宝山风景名胜区位于福建省南平市顺昌县大干镇土垅村,省级风景名胜区,2001年经国家文物局批准列为全国重点文物保护单位


全局底部横幅