Findings EMNLP2021 基于自修正编码器的神经机器翻译字节火山翻译提出 (finding)

文章编号：43996 资讯动态 2024-12-09 字节跳动火山翻译 EMNLP2021 Finding 神经机器翻译

EMNLP2021 <a href= findings｜字节火山翻译提出：基于自修正编码器的神经机器翻译" src="https://www.gpxz.com/zdmsl_image/article/20241209164029_13314.jpg" loading="lazy">

随着网络上各种信息的指数级增长，以及跨语言获取信息的需求不断增加，机器翻译逐渐成为网上冲浪?‍♀️时必不可少的工具。网页翻译让我们在 Reddit 等外国论坛里和网友谈笑风生；火山同传等智能字幕翻译系统让我们无需等待字幕组，直接观看“生肉”剧集；聊天翻译让我们建立跨国贸易，结交外国友人。

然而，上面提到的场景往往有一个共同点，那就是被翻译的文本往往是不规范的。无论是聊天时手误导致的错别字，还是视频语音原文识别的错误，都会极大地影响译文质量。因此，实际应用场景下的机器翻译对翻译模型的鲁棒性有很高的要求。

今天就为大家介绍一篇由字节跳动人工智能实验室火山翻译团队发表在 EMNLP 2021 Findings 的短文 - Secoco: Self-Correcting Encoding for Neural Machine Translation。这篇论文让翻译模型在学习翻译任务的同时，学习如何对输入的带噪文本进行纠错，从而改善翻译质量。

EMNLP2021 Findings｜字节火山翻译提出：基于自修正编码器的神经机器翻译

研究背景和动机

神经机器翻译在近些年取得了很大进展，但是大部分工作都是基于干净的数据集。在现实生活中，神经机器翻译系统面对的输入往往都是包含噪声的，这对翻译模型的鲁棒性提出了很大挑战。

之前的翻译鲁棒性工作主要分为三类：

可以看到，大部分的工作都专注于如何生成噪声，很少探究如何进一步使用它们；本文则想要通过建模从噪声数据到干净数据的修正过程，从而增强模型的鲁棒性。

图1 一个简单的修正过程

如图 1 所示，如果想要把一个带噪序列 "abbd" 修正为 "abcd" ，那么可以先删除第三个位置的 "b"，再在第三个位置插入 "c"。也就是说，可以将对带噪文本的修正转化为插入和删除的序列，并在编码器端显式地建模这一过程。

自修正模型Secoco

作者针对神经机器翻译提出了具有鲁棒性的 自修正框架Secoco (lf-rrecting Ending)。

正如图2左侧所示，Secoco 和普通的翻译模型不同之处在于 Secoco 有两个修正操作的预测模块，这些预测模块基于输入序列的表示生成相应的操作序列。删除预测器 (Deletion Predictor) 根据当前词的表示预测是否要删除，而插入预测器 (Insertion Predictor) 则根据两个连续的词的表示预测中间是否要插入新的词。

虽然这种迭代编辑的过程每一步都需要前面的操作，但是为了简化训练过程，插入预测器和删除预测器都是相互独立的，并与普通的翻译任务同时进行训练。

一个关键的问题是如何生成这些训练数据？关键点在于获取从带噪数据转化为干净数据的编辑操作。作者提供了两种方式。一种是针对有带噪数据和对应干净 reference 数据的情况，一种是没有带噪数据的情况。

，可以使用类似计算最短编辑距离的方法，获取从带噪数据转化为干净数据的最短编辑过程，然后将替换操作转化为删除-插入操作。

，可以使用基于规则的方法生成伪数据。针对不同的场景，可以设计对应的规则，然后从干净的数据中生成带噪数据，最后反向这个过程就可以得到编辑过程。

训练完成后，便可以进行解码。正如图2右侧展示的，Secoco 有两种解码方式。第一种是仅使用编码器-解码器结构直接进行翻译 (Secoco-E2E)，另一种则是对输入进行迭代编辑后再进行翻译 (Secoco-Edit)。

性能一览

作者在三个测试集进行了实验，包括一个基于电视剧的中英对话测试集，一个内部的中英语音翻译测试集，以及加入人工噪声的英德WMT14测试集。

如表1所示，对话测试集包含主语省略，标点省略，错别字等问题；语音测试集包含口语词，错别字等 ASR 引起的问题；WMT14 则包含由规则构造的随机插入，随机删除，重复等问题。

实验结果如表2所示。除了 Secoco 之外，作者还和3种方法进行了对比，分别是将合成的噪声数据加入原始数据中一起训练 (BASE+synthetic)；使用修复模型加上翻译模型的 pipeline 级联结构 (REPAIR)；以及多编码器-单解码器的结构 [1] (RECONSTRUCTION)。可以看出，所有的方法相较于基线模型都有所提升。Secoco 在三个测试集上都获得了最好的效果。

此外，在这三个测试集中，对话测试集明显包含更多的噪声，Secoco 最多可以带来3个 BLEU 的提升。语音测试集由于是由 ASR 导出的，因此最好的结果也仅有12.4。

表格3中给出了一些迭代编辑的具体例子。针对每一句输入，模型对其进行迭代删除和插入操作，直到文本不再发生变化。从例子中可以看到，一次编辑操作可以同时删除或者插入多个词。此外，对于上述的测试集，平均每个句子需要2-3次编辑操作。

总结

针对互联网中非规范输入带来的鲁棒性问题，本文主要介绍了一个具有自我修正能力的神经机器翻译框架 Secoco，该框架通过两个独立的编辑操作预测器建模修正带噪输入的过程。实验表明， Secoco 在多个测试集上都优于基线模型，增强了翻译模型的鲁棒性，并提供了一定的可解释性。

EMNLP2021 Findings｜字节火山翻译提出：基于自修正编码器的神经机器翻译

版权文章，未经授权禁止转载。详情见转载须知。

EMNLP2021 Findings｜字节火山翻译提出：基于自修正编码器的神经机器翻译

本文地址： https://www.gpxz.com/article/eda90b0ef5cafaf3a3d5.html

上一篇：离开阿里的日子无招离开阿里的日语

下一篇：岁小孩重获生命力3D打印超仿生头盖骨帮助7

首页

房产装修 2026-01-20 22:41:33

自动刷新请求网址

在线定时刷新指定网址工具:在线定时刷新指定网址的工具,定时刷新网址,定时刷新网页增加网页请求量,可在线测试网页压力,自定义刷新间隔时间,和快速增加网站真实PV

网站模板 2026-01-21 10:53:53

好工作上智联招聘

智联招聘为求职者提供职位搜索,简历管理,职位定制,人才评测,培训信息等.为企业提供一站式专业人力资源服务,包括网络招聘,报纸招聘,校园招聘,猎头服务,招聘外包,企业培训以及人才测评等.

网络应用 2024-01-14 23:31:53

骨灰盒存放架

江西聚仙阁骨灰寄存设备公司，专业『骨灰架厂家』殡葬骨灰架、公墓骨灰架、骨灰盒存放架、骨灰寄存架『骨灰架价格』殡葬寄存、专业柜架、性价比高、殡仪馆公墓、骨灰堂用『骨灰架定制』工厂批发，厂家价格，咨询电话：17307057878。

商业服务 2026-01-21 13:47:22

轻乳酪蛋糕怎么做

轻乳酪蛋糕的做法,轻乳酪蛋糕怎么做请看步骤：1.取一小锅将奶油奶酪和牛奶放进去，另取一大锅，锅内加入适量的水2.隔水加热，将奶油奶酪和牛奶搅拌均匀至光滑无颗粒,再将黄油加入奶油奶酪里。搅拌至黄油溶化，搅拌均匀至看不到油星...

电影视频 2024-01-14 18:46:08

纳姆网络

纳姆网络为制造型企业定制专属网站和营销咨询，创建了一个基于5个标准的测评系统：设计、内容、易用性、移动端、优化推广，迎接中国制造2025，实现制造业智能升级。

网络应用 2026-01-24 22:31:23

衣柜

常州市小二家居有限公司是一家为常州、无锡、苏州、南京附近的客户提供全屋定制、衣柜定制、橱柜定制等服务的厂家，价格优惠、服务周到，欢迎来电咨询:18018261102

商业服务 2026-01-25 18:58:39

广西东兴统源食汇商贸有限公司

电影视频 2026-01-25 21:00:24

轴承回收

庄生轴承回收网专业从事回收轴承，回收进口轴承，回收库存积压轴承，回收废旧轴承，回收拆机轴承，收购轴承及其轴承销售业务。电话：15563517111QQ:370005577

电影视频 2026-01-28 17:15:00

首页

成都鼎晟化妆品有限公司

电影视频 2026-01-28 19:41:22

武汉优品壹创科技有限公司

武汉优品壹创科技有限公司（品创电商）成立于2011年5月，是一家聚焦于创意服饰领域的电商公司。公司保持着超增速的良性发展，建立了集原辅料供应、产品研发、生产制造、销售运营、仓储配送于一体的电商服饰孵化产业链。

电商供求 2026-01-28 22:28:51

肇庆市鑫源信电子科技有限公司

网站模板 2026-01-29 16:21:10

2025人气较高的农场游戏分享有趣的有一款游戏叫什么农场在哪里 (2025人气圈知名榜)

瞧瞧今天小编为大家介绍几个关于2025年有趣的有一款游戏叫什么农场在哪里的游戏推荐吧，农场游戏对于我们来说是非常治愈的小游戏，里面我们可以体验没有尝试过的农场生活，跟随游戏角色去放松一下！你们有喜欢相似的游戏也可以一起看一下下面的一些游戏推荐，选择最符合你心中要求的游戏吧！在，熊出没之熊大农场，中，我们将跟随熊大和熊二一同开启欢乐的农...。

2025-02-11 15:26:15

预计2023年中国云服务支出将增长12% Canalys (预言2023年要爆发什么灾难)

3月20日消息，Canalys今日发布报告称，2022年对于中国大陆的云计算市场来说是保守的一年，市场增长了10%，全年总额为303亿美元，IT之家注，当前约2087.67亿元人民币，；第四季度以4%的同比增长收尾，季度总额为79亿美元，当前约544.31亿元人民币，报告指出，与过去几年的强劲表现相比，2022年的增长率出现了明显下...。

2025-02-02 19:45:57

15个可以让你成长加速荷包满满的网站和APP

现在，几乎人人都可以借助互联网来学习和创业，提升自己，获取收入的渠道变得更为多元化，找到好的工具，平台和方法则可以实现效率和效益的双赢，而今天，我就根据不同的类别推荐15个可以让你成长加速，荷包满满的网站和app，说真的，青春如此完美，真心没有空闲去浪费时间，一，知识学习类我们毕业之后并不代表就不用再去学习知识了，更相反的是，我们要不...。

2025-01-30 23:06:21

改用电子怀挡 2023欧拉好猫上市起售价12.98万元 (电子怀档怎么用)

2月28日晚，长城汽车旗下欧拉品牌发布欧拉好猫2023年新款车型，售价区间为12.98万元，16.58万元，2023欧拉好猫共推出3款配置，分别为轻享版、豪华版以及尊贵版，相比老款，2023欧拉好猫在外观上别无二致，主要有9项更新，新增V2L对外放电功能与不停车电子收费系统，采用，吧台式，副仪表台，把老款的旋钮式换挡机构更换成电子怀挡...。

2024-12-10 00:31:11

提及财务健康独家丨谢欣年度飞书正式开启精简团队 OKR (财务健全)

独家获悉，今日上午，谢欣发布内部全员信，表示飞书将精简团队规模，谢欣在内部信中提到，经过反复多次的讨论和非常慎重的抉择，我们决定做一些调整，会适当精简团队规模，实际上，几天前，一位飞书人士曾告诉，谢欣今年的年度OKR中提及一项重点内容为财务健康，另有知情人士称，飞书今年期望收入能覆盖商业化团队的员工，公司将只负责承担产研团...。

2024-12-03 19:12:53

干洗店干洗店怎么样 (干洗店干洗店把鞋子给洗坏了应该怎么做)

相信一些经常干洗衣服的人都知道干洗店干洗店，在很多地方都干洗店干洗店的加盟店铺，比如一些学校的周边，一些小区里面等，毕竟有很多人或者说很多衣服都要用到干洗，尤其是冬天的衣服，以及一些昂贵的衣服，那么加盟干洗店干洗店怎么样，对于这个问题，我们一起来看一下，干洗店干洗店品牌介绍干洗店干洗作为全国知名品牌，必定有其优势所在，干洗店人秉承做质...。

2024-12-02 22:00:28

佬表食品加盟费 (佬表食品加盟费多少)

在日常生活中，烘焙食品很常见，比如说蛋糕、面包等等，烘焙食品老少皆宜，市场需量很大，正是如此，在选择创业项目的时候，有些创业者想要加盟开烘焙店，小编推荐佬表食品，加盟合作，有各种加盟优势，开店很容易成功，那么，佬表食品加盟费多少钱，佬表食品品牌已经创立很多年，经过这些年的用心运营发展，现在品牌已经发展的很强大，荣获了很多荣誉，发展了很...。

2024-11-23 01:56:23

男人的衣柜有哪些 (男人的衣柜有哪些品牌)

男人的衣柜主要包括以下种类，一、休闲服饰衣柜休闲服饰是男性衣柜中不可或缺的一部分，这类服饰适合在日常生活中的各种场合穿着，如街头、购物、聚会等，通常包括休闲西装、牛仔裤、运动鞋、衬衫、T恤、运动裤等，这些服饰注重舒适度和时尚感，能够让男性在休闲时光展现出轻松自在的形象，二、商务正装衣柜对于需要经常参加商务场合的男性来说，商务正装衣柜是...。

2024-11-18 19:24:27

两步走！“科创板八条”后首单，亮点多多！｜并购重组活跃资本市场系列报道|股权|上交所|上市公司|政策红利

两步走！“科创板八条”后首单，亮点多多！｜并购重组活跃资本市场系列报道,股权,上交所,科创板,上市公司,政策红利

2024-09-03 14:04:30

号航母也门胡塞武装称再度袭击美艾森豪威尔 (也门海军实力)

胡塞武装官宣，导弹无人机齐发，24小时内两度袭击美军航母外地期间6月1日晚间，也门胡塞武装发言人叶海亚·萨雷亚宣布讲话，称胡塞武装近期针对多个指标发起了系列军事执行，讲话称，其中一次性执行针对目前处于红海北部的美军，艾森豪威尔，号航母，胡塞武装对其发起了导弹和无人机袭击，这是过去24小时内胡塞武装对美军航母的第二次袭击，此外，另一次性...。

2024-07-04 17:24:36

几种,几种专题内容文章-理联盟

几种专题,提供几种的相关文章和相关资讯,在本栏目你可以看到几种这个内容的相关各类文章很多篇,如有不足请提供给我们更多几种的文章供大家查阅.

2023-10-25 17:32:12

文章推荐

2 Tensorflow 的入门与安装全网最全学习资料汇总之Tensorflow

自2015年11月发布以来，谷歌旗下的机器学习开源框架TensorFlow已经在图像识别，大数据分析，语音识别和语义理解，机器翻译等各个领域得到了广泛应用，同时也得到了业内人士的普遍认可，成为了目前最受关注和使用率最高的开源框架之一，本文将重点整理TensorFlow框架的入门和安装教程，更多关于TensorFlow的深入介绍、应用项...。

2024-11-30 18:34:03

资讯动态

腾讯混元携手一汽红旗及QQ 打造红旗品牌虚拟代言人 (腾讯混合云)

1月11日记者获悉，一汽红旗品牌虚拟代言人微信小程序，旗羿旗妙说，于近日上线，基于腾讯混元大模型提供的智能底座，腾讯QQ为一汽红旗进行了全面的知识升级，同时使用双方联合打造的年轻化国风皮肤品牌虚拟代言人，旗羿、旗妙，，通过微信小程序为载体为用户提供智能交互问答服务，上线10天内，小程序访问人数突破百万次，这是一汽红旗首次在营销领域探索...。

2024-11-30 17:48:20

资讯动态

618千元投影仪怎么选 618千元投影仪推荐哪款

发表在综合交流大区2024，5，2017，43618活动开始了，正是大家入手投影仪的好时机，如果预算不高，那么可以选购千元价位的投影仪，具体618千元投影仪怎么选呢，下面就分享618选购千元投影仪的注意事项，看看618千元投影仪推荐哪款，一、618千元投影仪怎么选1.亮度投影仪的亮度决定投影画面的明亮程度，亮度越高，对环境光的抵抗力越...。

2024-11-28 17:22:13

网络百科

自媒体平台之百家号新手入门详解 (自媒体平台之间互相关联有什么用)

新手怎么注册百家号，从零开始，手把手教你具体流程与注意事项，自媒体在这几年里面直线上升的发展速度，大家对自媒体的熟知度也是越来越高，除了今日头条外，各大自媒体平台也是纷纷崛起，像腾讯的企鹅号，阿里的大鱼号，百度的百家号，这几大巨头的背景，可想而知这些平台的实力，流量是不用担心的，而且各个平台为了吸引更多的优质作者也是毫不吝啬的巨额补贴...。

2024-11-26 17:47:30

网络百科

BAT和360员工跳槽内幕

网上流传着一个经典的段子，百度的人，一挖就走，阿里的人，工程师都被洗脑，洗得了的留下，洗不了的撤，腾讯的人，谁也瞧不上，360老板流氓，员工都很怂，虽然只是业内笑谈，但是谈笑间却留有玄机，似乎更加立体的向我们透露了以上四家企业的员工特色，百度阿里心心相印员工跳槽首选对方数据显示，5年内从百度、阿里、腾讯和奇虎360四家企业中跳槽员工...。

2024-11-22 00:03:28

好文分享

Findings EMNLP2021 基于自修正编码器的神经机器翻译 字节火山翻译提出 (finding)

相关文章

文章推荐

Findings EMNLP2021 基于自修正编码器的神经机器翻译字节火山翻译提出 (finding)