最简单的自然语言处理数据增广方法 EDA (最简单的自然笔记)

文章编号:41465 资讯动态 2024-12-03 EDA 数据增广 自然语言处理

数据增广常用于计算机视觉。在视觉领域,你几乎肯定可以翻折、旋转或镜像一幅图片,而不用担心它的标记发生变化。然后,在自然语言处理(NLP)领域,情况完全不同。改变一个词有可能改变整个句子的意思。所以,没有简单的方法能做到数据增广。真的是这样么?

我向你介绍EDA:简单数据增广技术,可以大大提升文本分类任务的性能(在EDA Github repository有简单的实现代码)。EDA包含四个简单操作,能极好地防止过拟合,并训练出更强健的模型,分别是:

这些技术真有效吗?出乎意料,答案是肯定的。尽管生成的某些句子有点怪异,但是在数据集中的引入一些噪声,对于训练出一个健壮的模型来说,是极有好处的,特别是数据集比较小的时候。这篇论文指出,在5个文本分类任务的对比测试中,基于几乎所有大小的数据集,使用EDA都击败了常规训练方法,在训练数据集较小的时候,表现尤其突出。平均来说,用EDA训练一个循环神经网络(RNN),只需50%的训练数据,即可达到常规方法同等的精度。

文本分类任务的性能表现,相对于训练集的使用百分比。 使用EDA(简单数据增广),在小数据集时,远胜常规方法。

EDA会保留增广句子的真实标记吗?

我知道你在考试这个问题。真的能在做增广操作的同时,保留其真实标记吗?我们用画图形的方法来验证一下。

假设你训练一个关于产品的正面、负面评价的RNN,使用常规和增广的句子都跑一遍,抽取神经网络的最后一层,用sTNE画一个潜在空间图:

ProCon数据集原生及增广句子的潜在空间图

可以看到增广句子的潜在空间图紧紧围绕着原生句子!这表明所生成的增广句子极大可能的保留了原始句子的标记。

这些操作都有效吗?

现在,我们来看看数据增广技术中每个单独操作的效果是什么样的。同义词替换好理解,但是另外三个操作真的起作用吗?我们可以做一个实验,单独做其中一种操作,并代入不同的α值,参数α大致可理解为“句子中被改变的单词的百分比”:

在不同大小的数据集下,对比其它五种文本分类方法,EDA操作的平均性能增益。 参数α大致可理解为“句子中被每种增广操作改变的单词的百分比”。

你能看到,在小数据集时,性能增益非常大,达到大约2-3%,数据集大的时候,增益变小(~1%)。但是,各项操作综合起来,如果设置的增广参数合理(句子中改变的单词不超过四分之一),能使训练出的模型更健壮。

做多少增广?

最后,对于一个真实句子,我们应该增广出多少句子呢?答案取决于你的数据集的大小。如果你的数据集很小,很可能会出现过拟合,此时你应该生成多一些的增广句子。如果数据集比较大,增加太多的增广句子,意义不大,因为原有的数据已经能训练出一个好的模型了。这个图表显示了相对于每个原生句子生成的增广句子的数量的性能增益:

不同大小的数据集下全部五种文本分类任务的EDA平均性能增益。n_aug表示每原生句子生成的增广句子的数量。

下一步?

我们已经展示了在文本分类中,简单数据增广能显著提升性能。如果你正用小数据集训练一个文本分类器,并想取得更好的效果,请在模型中编程实现这些操作,或者从Github中下载EDA代码。更多详情请查看原文。

想要继续查看该篇文章相关链接和参考文献

点击 EDA:最简单的自然语言处理数据增广方法 】 即可访问:

AI研习社今日推荐: 2019 最新斯坦福 CS224nNLP 课程

自然语言处理(NLP)是信息时代最重要的技术之一,也是人工智能的关键部分。NLP的应用无处不在,因为人们几乎用语言进行交流:网络搜索,广告,电子邮件,客户服务,语言翻译,医学报告等。近年来,深度学习方法在许多不同的NLP任务中获得了非常高的性能,使用单个端到端神经模型,不需要传统的,任务特定的特征工程。在本课程中,学生将深入了解NLP深度学习的前沿研究。

课程链接:

原创文章,未经授权禁止转载。详情见 转载须知 。

EDA:最简单的自然语言数据增广方法


本文地址: https://www.gpxz.com/article/e134aa580854465a331b.html
全局中部横幅
全局中部横幅
360官网

360安全卫士最新版提供木马专杀,病毒查杀,系统修复,文档解密,挖矿木马防护,剪贴板病毒,垃圾清理,文件恢复,驱动下载,服务器防护,系统补丁更新,网络测速,软件管理,互联网金融

智卖宝官网

智卖宝OMS系统是为您实现线上线下订单统一管理,库存共享的企业级业务中台系统。智卖宝电商OMS系统,已对接60+主流电商平台,专注电商OMS系统研发11年,助力5W+企业平稳度过11个双十一,金牌品质,值得信赖!

法坤法务

法坤法务成立于2018年,我们专注于民间借贷,婚姻家事,诉讼指导,合同文书,劳动纠纷等领域,致力于为广大客户提供优质高效的法律咨询服务!

电池弹簧片冲压

电池弹簧片冲压,五金冲压件,五金冲压加工推荐深圳市汇峰源伟业五金制品有限公司,工厂有各种模具加工及生产设备!汇峰源主营:电池弹片,电池弹簧片,电源接触弹片,电池弹片冲压,五金弹簧,异形弹簧,普通压簧等等,欢迎来电咨询!

欢迎访问中国总会计师协会网站

中国总会计师协会是经民政部批准,成立于1990年的跨地区、跨部门、跨行业的全国非营利一级社团组织,业务指导单位是财政部。

情感咨询

晴原情感网是专业的情感咨询平台,提供婚姻情感在线挽回咨询服务。全面覆盖情感挽回、恋爱技巧与脱单攻略,并专业解答异地恋、分手挽回、遭遇情感困扰等问题。无论您处于何种情感阶段,我们都可为您提供在线免费咨询与策略支持,用心守护您的幸福。

双轴撕碎机厂家

马鞍山市沃德机械制造有限公司专业从事双轴撕碎机、小型撕碎机产品开发生产和销售的高科技企业。公司成立几年来,一直致力于塑料轮胎双轴撕碎机、金属废钢废铁屑小型撕碎机机箱及各种非标箱体的开发与生产,产品现广泛应用于再生、危废和固废等多种行业。

湖南省益阳茶厂有限公司

湖南省益阳茶厂有限公司,创建于1958年,系国家民委、财政部、中国人民银行等国家部委定点的、国家重点茯砖茶生产厂家、全国民族贸易和民族特需商品生产百强企业、中央边销茶原料承储企业、湖南省农业产业化龙头企业、湖南省高新技术企业、湖南省老字号企业、湖南省重大科技专项示范企业、湖南省创新型试点企业、湖南省拥有自营进出口权的黑茶生产企业先驱、GB/T9833.3国家标准。联系我们:400-833-1958

长沙昊磊热能设备有限公司

长沙昊磊热能设备有限公司专业从事板式(可拆式、全焊式、钎焊式)换热器,空气散热器(空气热交换器),螺旋板换热器,管壳式换热器,热交换盘管,换热机组,加热(冷却)风柜等,并可根据各行业客户的工艺特点与要求,针对性开发出相应的废水、废气(汽)等余热回收装置及能量回收机组。

七卡猫

七卡猫是视频处理、内容分发、账号管理于一体的AI自动化软件平台,支持视频下载、混剪、去重、封面制作,图片裂变、消重、修复,多账号、店铺管理,快速上架,批量上传,提供全方位运营方案。

演图网

演图网不仅有党课ppt、述职报告ppt、工作总结ppt、竞聘PPT模板、家长会PPT等免费PPT模板,还有转正述职报告ppt范文、竞聘PPT免费、个人工作总结ppt范文等ppt模板免费下载

西鱼资源导航

西鱼AI资源导航是一个汇聚集国内外优秀AI应用工具网址导航平台,包括AI绘画、AI内容设计、AI语音生成、AI短视频生成、AI自媒体写作、AI客服、AI办公、AI营销、数字人等人工智能工具。提供一站式AI工具导航服务,帮助用户提升工作效率和创作能力,定时更新分享优质AI工具应用书签。


全局底部横幅