最简单的自然语言处理数据增广方法 EDA (最简单的自然笔记)

文章编号:41465 资讯动态 2024-12-03 EDA 数据增广 自然语言处理

数据增广常用于计算机视觉。在视觉领域,你几乎肯定可以翻折、旋转或镜像一幅图片,而不用担心它的标记发生变化。然后,在自然语言处理(NLP)领域,情况完全不同。改变一个词有可能改变整个句子的意思。所以,没有简单的方法能做到数据增广。真的是这样么?

我向你介绍EDA:简单数据增广技术,可以大大提升文本分类任务的性能(在EDA Github repository有简单的实现代码)。EDA包含四个简单操作,能极好地防止过拟合,并训练出更强健的模型,分别是:

这些技术真有效吗?出乎意料,答案是肯定的。尽管生成的某些句子有点怪异,但是在数据集中的引入一些噪声,对于训练出一个健壮的模型来说,是极有好处的,特别是数据集比较小的时候。这篇论文指出,在5个文本分类任务的对比测试中,基于几乎所有大小的数据集,使用EDA都击败了常规训练方法,在训练数据集较小的时候,表现尤其突出。平均来说,用EDA训练一个循环神经网络(RNN),只需50%的训练数据,即可达到常规方法同等的精度。

文本分类任务的性能表现,相对于训练集的使用百分比。 使用EDA(简单数据增广),在小数据集时,远胜常规方法。

EDA会保留增广句子的真实标记吗?

我知道你在考试这个问题。真的能在做增广操作的同时,保留其真实标记吗?我们用画图形的方法来验证一下。

假设你训练一个关于产品的正面、负面评价的RNN,使用常规和增广的句子都跑一遍,抽取神经网络的最后一层,用sTNE画一个潜在空间图:

ProCon数据集原生及增广句子的潜在空间图

可以看到增广句子的潜在空间图紧紧围绕着原生句子!这表明所生成的增广句子极大可能的保留了原始句子的标记。

这些操作都有效吗?

现在,我们来看看数据增广技术中每个单独操作的效果是什么样的。同义词替换好理解,但是另外三个操作真的起作用吗?我们可以做一个实验,单独做其中一种操作,并代入不同的α值,参数α大致可理解为“句子中被改变的单词的百分比”:

在不同大小的数据集下,对比其它五种文本分类方法,EDA操作的平均性能增益。 参数α大致可理解为“句子中被每种增广操作改变的单词的百分比”。

你能看到,在小数据集时,性能增益非常大,达到大约2-3%,数据集大的时候,增益变小(~1%)。但是,各项操作综合起来,如果设置的增广参数合理(句子中改变的单词不超过四分之一),能使训练出的模型更健壮。

做多少增广?

最后,对于一个真实句子,我们应该增广出多少句子呢?答案取决于你的数据集的大小。如果你的数据集很小,很可能会出现过拟合,此时你应该生成多一些的增广句子。如果数据集比较大,增加太多的增广句子,意义不大,因为原有的数据已经能训练出一个好的模型了。这个图表显示了相对于每个原生句子生成的增广句子的数量的性能增益:

不同大小的数据集下全部五种文本分类任务的EDA平均性能增益。n_aug表示每原生句子生成的增广句子的数量。

下一步?

我们已经展示了在文本分类中,简单数据增广能显著提升性能。如果你正用小数据集训练一个文本分类器,并想取得更好的效果,请在模型中编程实现这些操作,或者从Github中下载EDA代码。更多详情请查看原文。

想要继续查看该篇文章相关链接和参考文献?

点击 EDA:最简单的自然语言处理数据增广方法 】 即可访问:

AI研习社今日推荐: 2019 最新斯坦福 CS224nNLP 课程

自然语言处理(NLP)是信息时代最重要的技术之一,也是人工智能的关键部分。NLP的应用无处不在,因为人们几乎用语言进行交流:网络搜索,广告,电子邮件,客户服务,语言翻译,医学报告等。近年来,深度学习方法在许多不同的NLP任务中获得了非常高的性能,使用单个端到端神经模型,不需要传统的,任务特定的特征工程。在本课程中,学生将深入了解NLP深度学习的前沿研究。

课程链接:

原创文章,未经授权禁止转载。详情见 转载须知 。

EDA:最简单的自然语言处理数据增广方法


本文地址: https://www.gpxz.com/article/e134aa580854465a331b.html
全局中部横幅
全局中部横幅
找线报

找线报_活动线报,薅羊毛优惠活动分享,套路王实时更新V打开邮生活签到七天还没抽的真凡移动每日打电话,需接通汤星球文末点图抽小鸿包,0.3-0.4不bi中有反馈没抽的试试非bi中,V扫左上角小房子返回依视路1.6膜致好价古茗和pdd准备啦,古茗?12点抢1万张兔箪倦点外卖了扫码加企微,输入03612进去授权手机号京东伊利页面下单抽零食倦,?招行体验金提前解锁,20点有4100件宁波交行的看看1亓试用安徽农行信用卡50毛速?真维斯男士加绒保暖卫衣超级爽拼多多bug,0.1无限开三个月会员!!速度每日领京豆:1月21日京东关注店铺领京豆无标题中.信周三领神券抽霸王茶姬速雪中飞长款羽绒服110-140左右淘宝搜:古方惊喜盒子?雪中飞男士长款羽绒服双叠加??25??撸一箱安慕希闪购红包最高20元,可叠加

远程智能

浙江科洪电器有限公司位于温州乐清市柳市镇,主要经营配电开关控制设备、高低压电器及成套设备等产业,始终为客户提供高质量的产品、专业的技术支持以及健全的售后服务。

环博云官网

MYB2B系统是基于PHP+MySQL的B2B(电子商务)行业门户解决方案

永合世纪高分子材料(广东)有限公司

永合世纪高分子材料(广东)有限公司

河南甜塔信息技术有限公司,甜塔科技,河南甜塔,智慧景区,中国银联,甜塔科技与中国银联,甜塔智付,洛阳智慧景区,银联旅游节,甜塔科技银联,专业研发团队,

河南甜塔信息技术有限公司作为中国银联商服事业部文旅团队数字旅游全国智慧景区落地服务执行团队、中国银联云闪付isv系统开发商,同时也是微信、支付宝isv系统开发商,集合了云闪付、支付宝和微信支付、合作银行优势以甜塔科技技术开发能力向甲方提供更优惠、更优质的服务等互联网+的全方位整体解决方案。

想种菜农业网

想种菜农业网是一个农业知识网站,主要提供蔬菜种植、水果种植、药材种植、花卉种植等种植技术,鸡、鸭、鹅、牛、羊、猪、鱼等常见畜牧渔业养殖知识,还有各类农业知识大全。能够帮助到广大农民朋友靠农业致富,是本站的初衷。

nba直播

想了解NBA、足球等全球体育赛程与比分?上24直播网!✅夏✅日✅男主精心打造体育信息服务网站,汇聚最新新闻、赛事预告与数据统计,致力于为球迷提供多维度、权威的体育资讯服务体验。

游信官网

游信是一个精品游戏推荐平台,主打单机PC游戏,独立客观的评价标准,绝不错过任何一款好游戏;友好的点评氛围,多元化的内容,独到鲜明的观点。

浏阳网站建设

卓为信息技术有限公司7年专注于高端网站建设服务,并是阿里巴巴浏阳服务中心,超过500家网站建设案例!多种网站建设套餐任你选择,提供成品网站制作、定制网站建设,提供一年免费维护服务

爬架

北京星河人施工技术有限责任公司专门从事爬架、爬模等工程施工机具的开发、生产、销售、租赁及专项工程承包,欢迎来电咨询:13601077501

上海印刷

上海紧急印刷项目可制定一整套解决方案,优先排单印刷;公司拥有完善的物流运输体系,上海市郊区货物均能当天准时送达。

使命召唤16

使命召唤16游戏专题;提供使命召唤16中文版下载,使命召唤16攻略大全,使命召唤16汉化补丁,使命召唤16视频解说,攻略视频,修改器,汉化下载,完美存档,MOD,教学,配置,截图,壁纸,武器,枪械,角色等资料。《使命召唤16》是一款RPG风格的合作FPS游戏。

全局底部横幅