是时候放弃循环神经网络了! (是时候放弃了)

文章编号:45995 资讯动态 2024-12-09 注意力机制 卷积网络 机器学习

有人说,不同语言之间的翻译,与其说是一门科学,不如说是一门艺术。

NLP 领域的机器学习工程师 Riccardo Di Sipio 日前提出了一个观点:使用卷积网络要比使用循环神经网络来做 NLP 研究,要幸福得多——是时候放弃循环神经网络了!

基于这一观点,他从卷积网络本身的基本原理出发,论述了为什么 NLP 不再需要循环神经网络的原因。

我们来看:

不久前,人工智能科学家侯世达(Douglas Hofstadter) 就在The Atlantic上发表的一篇论文中指出,目前机器翻译尚处于「浅薄」的阶段。

尽管机器翻译存在局限性,但难以否认的是,自动翻译软件在许多情况下都有良好的效果,而其背后的技术在任何存在信息从一个领域流动到另一个领域的语境中都具有广泛的应用,例如基因组学中从RNA到蛋白质编码的翻译过程。

直到2015年,序列到序列的映射(或者说翻译)使用的主要方法都是循环神经网络,特别是长短期记忆(LSTM)网络。

我在前一篇文章中介绍了这些网络架构的基础知识,我还谈到了LSTM 被应用于大型强子对撞机的顶部夸克对衰变的运动学重建过程。这篇文章链接如下:

然后,出现了一些新的方法:比如残差网路架构和注意力机制的提出,为针对这类任务的更通用的框架的实现铺平了道路。

值得一提的是,这些新颖的网路架构还解决了另一个问题:事实上,由于RNN 固有的时序性,很难利用这种网络在像 GPU 这样的并行系统上进行训练。而这一点正是卷积神经网络使用起来非常方便的地方。

在数学中,卷积表示的是当函数 f 作用于另一个函数 g 时生成第三个函数的一种运算:

是时候放弃循环了!

不应与调制(例如AM传输中的EM信号)混淆,调制是将两个函数简单相乘。 求知欲强的人可能会深究到:时间空间中的卷积傅里叶变换,实质上是频率空间中的调制

是时候放弃循环了!

所以这两种运算虽然密切相关,但切不可被混淆。

计算机科学的离散世界中,积分被求和取代,两函数之间的乘法由矩阵间的乘法代替。用行话来说,就是将卷积核应用到图像上来生成卷积特征,一次卷积将生成一个新的特征。在下面每一对图像中,当对左边部分发生一次卷积变换,将于右边部分产生一个新的值,如下图所示:

是时候放弃循环了!

在对这个序列的操作中,图像(灰色矩阵)由一个卷积核(橙色矩阵)卷积操作以获得卷积特征(绿色矩阵)。

通常来说,卷积核是一个网络的权值矩阵,必须通过某种算法(如:反向传播)计算,才能得到它的期望输出。

这种操作的一个很好并且非常重要的特性是,一旦「图片」被加载到记忆中,不同的卷积核会对其进行操作,这样就可以减少输入/输出(I/O)次数,从而更好地利用带宽。通常,卷积操作由以下两种方式执行:

在卷积之后,通常会进行池化操作:在每个卷积块中,只将最大值传递到下一层。此操作用于降低图片维数以及过滤噪声。降维的关键是通过信息压缩来寻找更高水平的特征。

常用的做法是,通过将上述两个步骤的板块链合在一起,来构建一个卷积神经网络。一些成功的网络架构案例如下:

既然现在我们已经了解了卷积神经网络的基本知识,那么让我们回到最原始的问题:我们如何使用这样的网络代替循环网络来解析序列呢?

注意力机制背后的主要观点是,网络应该找出输入序列的哪些部分或元素与生给定的输出序列元素具有更强的相关性。它通过为每个输入元素创建一个注意力权重向量(权重介于0和1之间,通过Softmax产生),并使用它们来调整信息流。如果我们首先关注基于RNN的网络,这将变得更容易理解。

对于每个输入元素(时间阶),RNN层会存储一个隐藏状态。所以对于N个输入将会有N个隐藏状态。此时,我们可以通过简单地让注意力权重和隐藏状态逐个元素相乘(也就是哈达玛积)。来生成剩下文向量:

是时候放弃循环了!

例如,当翻译一个句子时,两种语言的专有名词都是一样的,因此相应的权重会非常大(例如0.95)。相邻单词的权重很可能也是比较大的(例如0.55),而相距较远的单词权重则较小(例如0.05)。

最后,信息被压缩成一个注意力向量,并传递到下一层:

是时候放弃循环了!

在解码阶段,则回为每个输入的词计算上下文向量。

现在我们基本掌握和理解了关于如何在机器翻译中摆脱RNN网络的所有要素。

Transformer网络利用注意力机制,但这次使用的是前馈网络。

首先,输入序列被嵌入(即被编码成N维空间中的一个数字)向量作为补充,该向量跟踪每个单词相对于彼此的初始位置。现在我们有了序列中所有单词(K)和一个给定单词(Q)的向量表示。

根据这些材料,我们可以像以前那样计算出注意力权重(代表了维度,它是一个标准化因子):

是时候放弃循环了!

这个注意力权重决定了其他每个单词对于给定单词的翻译结果的贡献程度。

将这些权重作用于待翻译的给定序列(值V)的过程称为缩放的点积注意力(Scaled Dot-PROduct Attention)。

多头注意力是一种注意力机制的合并方式,被用来将Q、K和V 线性映射到不同维度的空间中。其思想是,不同的映射可以分别从不同方面突出信息编码的方式。其中映射是通过将Q、K和V乘以训练过程中学习到的矩阵W来实现的。

最后值得一提的损失,在论文《Attention Augmented Convolutional Networks》中,作者提出了一种具有多头注意力机制的CNN,该论文链接如下:

而以上,便是为什么我们不再需要循环神经网络的原因~

via:雷锋网AI 科技评论编译。

原创文章,未经授权禁止转载。详情见 转载须知 。

是时候放弃循环了!


本文地址: https://www.gpxz.com/article/702737ab97624459cac9.html
全局中部横幅
全局中部横幅
搜狗PC权重查询

查询搜狗PC权重和搜狗PC的关键字排名

彼岸壁纸

彼岸桌面是早期一家免费壁纸网站,专注提供免费高清壁纸,2K高清壁纸,电脑壁纸高清全屏,壁纸高清全屏电脑,包含日历壁纸,游戏,动漫,风景,美女,动物,汽车,节日,打工人等电脑背景图片,免费壁纸下载

小狮子赛几动画

故事围绕四个主人公——勇敢热血但过度自信的赛几,脑回路新奇、憨傻可爱的猪王子,生气时会变身的瑞比,智商超群的胖达。在派大陆他们一起经历奇妙的趣事,一起喜怒哀乐,一起成长。

网站帮

网站帮是一家专注于网站托管和数字营销服务的信息科技公司,提供网站维护、网站搭建、网站优化、小程序开发、APP开发等一系列服务,帮助客户实现数字化转型和品牌推广。我们拥有丰富的数字营销经验和专业的团队,通过技术、内容和营销策略的结合,为客户提供最优质的数字营销服务。在网站帮,您可以享受到一站式的数字营销解决方案,让您的品牌更具竞争力,更具影响力。

苏州空压机厂家

苏州玉达压缩机压缩机有限公司是一家集螺杆空压机和活塞空压机专业生产销售及其空压机零部件销售,空压机维修的厂家。主要生产螺杆空压机,活塞空压机和增压机,永磁螺杆空压机行业领先水平,活塞空压机价格低,可为客户节约20-40%的运营成本,免费提供空压机安装维护技术咨询,提供整条空压机线解决方案。

金洲精工科技(昆山)有限公司

金洲精工科技(昆山)有限公司是一家专业从事研发、生产和销售印制电路及相关行业专用刀具的国家级高新技术企业。

湖南石雕牌坊

湖南志诚光辉石材有限公司提供:湖南石雕牌坊,湖南石雕栏杆,湖南石亭长廊,湖南浮雕壁画,石雕栏杆厂家电话:13575048633

聊城家教网

聊城家教网提供一对一家教、专职教师和大学生上门家教服务平台,提供数学、英语以及数理化和艺术辅导。

零窕商贸行业动态~

零窕商贸行业动态~:好运道财经网发布股票,基金,理财,股市,期货,信托,贷款,金融等知识,让金融小白也能理解世界财经。

线槽

上海日成电子RCCN为全球需求者提供超过五千种规格以上高质量配线器材:主要以:线槽,无卤配线槽,汽车线束,导轨,电缆接头,尼龙扎带,尼龙扎线带,冷压端子,接线端子,尼龙软管,金属软管等。为您提供方便快捷的网上规格尺寸查询,满足您的不同布线需要,让您的设计方案更完美,达到最佳效果!

学生网页设计代码大全

LLX模板网专注学生网页设计,提供HTML静态网页成品、dreamweaver网页制作、PHP动态网站设计、divcss布局静态网页作品、简单个人网页设计、HTML静态网页模板、phpmysql毕业设计网站源代码下载。

湘湘机电

湘湘机电科技有限公司是一家高科技软件开发定制服务提供商和各类网络平台提供商及工业自动化应用软件开发、软硬件结合研发提供商。


全局底部横幅