机器学习的重新思考 人工智能如何学习 失忆

文章编号:41075 资讯动态 2024-12-03 失忆 数据训练 学习 机器学习

机器学习的重新思考:人工智能如何学习“失忆”?

机器学习已经成为各行各业的宝藏工具,常被用来构建系统,帮助人们发现那些容易忽略的细节,并辅助决策。尽管已经取得了惊艳的结果,但是也有很多痛苦,例如如何在已经成型的模型中修改、删减某些模块或者数据记录?

有学者表示,在大多数情况下,修改往往意味着重新训练,但仍然无法避免纳入可疑数据。这些数据可能来自系统日志、图像、客户管理系统等等。尤其是欧洲GDPR出台,对模型遗忘功能提出了更高的要求,企业如果不想办法将会面临合规处罚。

确实,完全重新训练的代价比较高,也不可能解决敏感数据问题。因此,我们无法证明重新训练的模型可以完全准确、有效。

为了解决这些问题,学者们定义了一种 “机器学习解除术” (machine unLearning),通过分解数据库、调整算法等专门技术,诱导模型选择性失忆。机器学习解除术,顾名思义,就是让训练好的模型遗忘掉特定数据训练效果/特定参数, 以达到保护模型中隐含数据的目的。



打破模型

机器学习之所以有魅力,是因为它能透过庞大的数据,超出人类认知范围的复杂关系。同时,这项技术的黑盒性质,让学者在修改模型时候,非常谨慎,毕竟无法知道一个特定的数据点处在模型的哪个位置,以及无法明确该数据点如何直接影响模型。

当数据出现异常值时,模型会记得特别牢,并对整体效果产生影响。

当前的数据隐私工具可以在数据脱敏的情况下训练模型,也可以在数据不出本地的情况下联合训练。或许可以将敏感数据替换成空值,引入噪声掩蔽敏感数据。但这些都无法从根本上解决问题。甚至,替代元素并保留关键数据的差异隐私技术也不足以解决选择性遗忘问题。例如它只能在单个案件或少数几个案件中发挥作用,在这些案件中,虽然不需要重新训练,但会有“敏感”的人要求从数据库中删除数据。随着越来越多的删除请求陆续到来,该框架的“遗忘模型"很快就会瓦解。

因此,隐私技术和机器学习解除术在解决问题的层面,并不能等同。

匿名无法验证和差分隐私技术的数据删除问题不仅是理论问题,而且会产生严重的后果。研究人员已经证明, 人们总是有能力从所谓的通用算法和模型中提取敏感数据。 例如2020年时候,学者发现,从GPT-2中可以获得包括个人身份和受版权保护的信息等训练数据。

机器学习的重新思考:人工智能如何学习“失忆”?




选择性遗忘

让机器学习模型获得选择性遗忘的能力,需要解决两个关键问题:

1.理解每个数据点如何机器学习模型;

2.随机性如何影响空间。例如需要弄清,在某些情况下,数据输入中相对较小的变化为何会产生不同的结果。

该方向的最初研究出现在在2019年。当时,NicOLAs Papernot提出将机器学习的数据分割成多个独立的部分,通过建立众多的迷你数据,从而实现只对特定组件进行删除和再训练,然后插回完整的数据集中,生成功能齐全的机器学习模型。

机器学习的重新思考:人工智能如何学习“失忆”?

具体操作过程是:先将训练数据分成多个不相交的切片,且一个训练点只包含在一个切片中;然后,在每个切片上单独训练模型;随后,合并切片,成功删除数据元素。因此,当一个训练点被要求遗忘时,只需要重新训练受影响的模型。由于切片比整个训练集更小,就减少了遗忘的代价。

该方法被Nicolas Papernot命名为(Sharded, Isolated, Sliced, and Aggregated ),对比完全重训练和部分重训练的基线, SISA实现了准确性和时间开销的权衡。在简单学习任务中, 在数据集Purchase上是4.63x, 在数据集 SVHN上是2.45x。

同时,作者也承认,虽然这个概念很有前途,但也有局限性。例如,通过减少每个切片的数据量,会对机器学习产生影响,并且可能会产生质量较低的结果。此外,这项技术并不总是像宣传的那样奏效。

目前,机器学习遗忘术的研究仍处于初级阶段。随着研究人员和数据科学家深入了解删除数据对整体模型的影响,成熟的工具也会出现, 其目标是:机器学习框架和算法允许学者删除一条记录或单个数据点,并最终得到一个“完全遗忘“相关数据的有效模型。

机器学习的重新思考:人工智能如何学习“失忆”?

版权文章,未经授权禁止转载。详情见 转载须知 。

机器学习的重新思考:人工智能如何学习“失忆”?


本文地址: https://www.gpxz.com/article/394e960fdc87747ca590.html
全局中部横幅
全局中部横幅
百度PC排名

百度PC排名API数据接口根据域名和关键词返回百度PC关键词收录量、抓取时间、关键词排名(页数-第几条)、页面标题、页面链接地址。

在线工具

OSCHINA.NET在线工具,ostools为开发设计人员提供在线工具,提供jsbin在线CSS、JS调试,在线JavaAPI文档,在线PHPAPI文档,在线Node.jsAPI文档,LessCSS编译器,MarkDown编译器等其他在线工具

养生秘方的做法大全

豆果美食养生秘方栏目为您推荐养生秘方做法大全,养生秘方怎么做好吃技巧分享,养生秘方最正宗的做法和养生秘方家常做法推荐,更多养生秘方的简单做法就来豆果美食。

噪声治理厂家

噪声治理网是一家集隔音降噪工程和隔音材料设备研发、生产、销售为一体的噪音治理厂家。承接民用建筑隔音、工业厂房设备噪声治理。

花桥电脑维修

花桥电脑维修公司天也科技提供花桥电脑维修,鑫苑,易买得电脑维修,启航社河东河西U时代上门维修电脑,花桥绿地大道U时代电脑维修公司,安亭电脑维修公司,电脑维修论坛,维修电脑资料,上海周边安亭维修电脑公司,服务热线:13917162708

就发物流网

就发物流网拥有国内各地物流专线信息,为用户提供各地物流专线信息查询服务,专注物流信息推广。

威海磁力耦合器

欢迎来我公司网站了解威海磁力耦合器、磁力耦合器厂家、磁力耦合器磁力搅拌器的价格和相关信息,我们的威海磁力耦合器服务质量好、性价比高,主要业务范围为江苏,浙江,安徽,山东,广东,威海,天津,河北,山西,内蒙古,联系我们为您提供一站式售前咨询与服务!

研华工控机

上海圣界电子科技有限公司,自1999年开始深入与研华合作,代理研华工控机、工业级arm主板、一体机、单板电脑等全系列产品,并开展系统集成相关技术服务,多年合作已成为研华信任的经销商。

杭州立钢锚具有限公司

杭州立钢锚具有限公司(原富阳市富春江锚具厂),位于浙江杭州富阳市灵桥工业园区,杭州——千岛湖高速公路(富阳灵桥)出口处下即到,交通十分便利。公司占地8000平方米,固定资产达1000多万,所使用的预应力锚具及配套金属波纹管等适用于公路、高速公路、大中型桥梁生产和销售的企业。

吊装带

河北冀力索具有限公司生产的栓紧器系列主要有捆绑带、拉紧器和栓紧器等各种规格型号,咨询热线:18233358325。同时还生产各种规格型号的合成纤维吊装带、凌鹰吊装带、冀力吊装带、钢板起重钳、钩子卸扣、手拉葫芦等上百种产品。

天津律师咨询免费

天津律师网汇集天津专业律师和律师事务所,专业提供天津刑事律师,天津离婚律师,天津婚姻律师,天津债务律师,天津房产律师,医疗纠纷律师,知识产权律师免费在线咨询服务,解答相关法律疑问,律师收费价格标准低.

网站建设

网站建设制作公司,网站建设,网站制作,网站建设公司,网站制作公司,做网站公司,网站优化推广,网页设计,网站开发,网站建设企业,网站建设平台搭建公司网站,企业网站制作、定制网站等一站式网站服务公司。

全局底部横幅