思必驰俞凯端到端与半监督语音识别的技术进展 (思必驰俞凯个人简介)

文章编号：44065 资讯动态 2024-12-09 端到端半监督学习语音识别

雷锋网按：如何低成本高效率地利用少量带标注的数据，挖掘大量语音数据中的有效信息，半监督学习正成为当下研究趋势之一。在这种趋势背景下，端到端的训练方法也正尝试结合预训练或先验知识，投入在语音识别网络的探索中。

在8月8日的CCF-GAIR 2020全球人工智能与机器人大会·前沿语音技术专场上，俞凯教授分享了端到端和半监督学习技术在语音识别问题中的最新研究思路及进展。

思必驰俞凯：端到端与半监督语音识别的技术进展 | CCF-GAIR 2020

俞教授指出，在深度学习发展以来，语音识别研究领域现在所面临的问题，除了在工程技巧和数据对接上做一些工作之外，最重要的事情是长尾的非配合语音识别。

其中，具备高效率的高精度系统和高质量的精准大数据构建是两个比较重要的进展和趋势。

一是具备高效率的高精度系统。高精度语音识别在前几年已经超过人的识别，但是高精度语音识别在长尾上仍有很多工作值得研究。很重要的一点是，现在大家的关注点由一般意义的高精度语音识别变成高效率的语音识别。如何在保持高精度的同时，还要保证系统构建和复杂度、响应速度、规模化能力和灵活性都必须同等提高，这是目前端到端语音识别引起很大兴趣的原因。

二是高质量精准大数据。大数据很有用，但有了大数据，精度就能提高吗？其实并非如此，越来越多的人发现真正的大数据应该是结构上的大，而不仅仅是数量上的大，也就是要在声学因素的分布、监督信号获取和识别系统适配方面，有高质量的精准数据。于是，也就出现了很多半监督、生成式的数据扩充方法。

何为端到端，以及为什么需要端到端？

在俞教授看来，传统的识别框架是结构不同的模型模块组成，称之为异构识别系统。首先，它本质上不是统一的参数化模型，中间需要WFST解码器，对各个模块分别建模训练；其次，声学、语言、字典等模型的类型和结构本质上完全不同，且解码器是不可缺少的连接模块信息的核心，需要构建复杂的搜索网络。

端到端识别框架不同之处在于，在大数据的背景下，能通过完整神经网络实现声学信号到识别结果的直接映射，各个组成部分是“同构”的。今天报告中谈到的端到端更多指的是，直接或简单转换后输出结果是“词序列”。

从优势上讲，端到端能够降低复杂度，减少参数量（不是声学上的减少，有神经网络语言模型的参数来描述语言空间），从而使得训练的流水线得以简化。其次，大数据资源的使用更为简单，数据驱动更为友好；此外，搜索解码速度加快，但是否真的需要构建搜索网络，俞教授指出，这项研究目前存在争议。

端到端的定义与分类

端到端主要分为两类，一类是同步框架，另一类是异步框架，主要解决语音识别的两个基本问题：分类与对齐。解决“对齐”问题通常采用的思路包括：马尔可夫模型（HMM）、标签填充、序列解码网络等方法。其中，后两种是端到端中比较常用的方法。

同步端到端框架采用的是，与输入同步逐帧输出，通过引入blank标签实现变长序列对齐；异步端到端框架采用的是，输入与输出使用两个网络分别处理，使用attention（注意力机制）解决对齐问题。

同步端到端框架最典型的就是CTC和RNN-T：前者通过引入相应的标签填充，同时在条件独立性假设上，每一帧输出之间条件独立，而后者没有条件独立性的假设。

随后，俞教授详细讨论了异步端到端存在的研究价值和争议。

俞教授表示，异步端到端最大的特点是输出与输入没有统一的时钟，是两个不同的网络。

在encoder-decoder架构上，encoder对整体输入序列提取所有信息，然后根据输出的要求再进行输出，时钟和输出标签是逐词进行的。这时，会通过attention的方式处理对齐。一般情况下，输出序列的个数会远远小于时间帧的个数，这种情况下，输出序列信息速率会远低于输入信息速率，beam搜索效率会变得很高。

不少研究指出，异步端到端的识别精度会优于同步端到端模型（上文讲到的CTC 、RNN-T），但这目前也是存在争议的。

端到端的问题与挑战

即便端到端存在一定优势，但问题在于，类似于encoder-decoder这样的架构，实时响应迟延可能会变长；同时，端到端的提出主要是在声学数据上的训练，对语言数据使用的讨论不够充分，直到最近才有一些新的工作。那么，端到端具体会有怎样的挑战？

这种情况下双向的神经网络无法使用，只能用单向网络，这就造成输入的信息变少。这时，如果通过注意力机制进行在线化解码，从而得到即时的、短迟延识别结果，就会变得非常有挑战性。

为此，俞教授指出，当下解决端到端的在线解码迟延问题，已有的思路主要有三类：一是固定短时窗口预测（Neural Transducer）；二是基于单帧触发的变长窗口方法（MoChA，Triggered Attention）；三是基于多帧累计触发阈值的方法（Adaptive Computing Steps）。其本质都是只用历史信息或非常小的前探信息。

再回来上文所提到的，早期的端到端模型是融合声学语料文本的超大声学模型，它并不包括语言模型，那么海量的文本数据如何使用？

当前端到端框架下的文本数据使用的解题思路主要有三种：一是模型融合（Fusion）——将文本数据训练的神经网络LM，在decoder输出层进行插值融合；二是语言模型模块嵌入——将端到端系统的部分网络作为LM建模，允许额外文本数据训练更新；三是半监督训练——利用文本数据做端到端模型训练的数据扩充（无显示的语言空间建模）。

从海量数据到高质量精准大数据

想要从海量数据中提取到高质量、精准的大数据，最大的挑战在于没有监督信号、标注起来也很难。解决该问题主要会运用到三个思想：一是自监督预训练，二是半监督训练，三是使用生成数据训练。

首先是自监督预训练，这种思路下数据自身就是标注，不需要额外标注，这与自然语言处理使用词序列作为标注，设计一些训练任务使得能够提取比较好的预训练特征是比较一致的方法。比较典型的是wav2vec或结合了预训练模型BERT的方法，以及重构任务DecoAR。

其次是半监督训练，可以是海量无标注音频或海量文本加适量有标注音频的方式。大体思路也有三种：置信度选择、先验知识蒸馏、音频文本一致性训练。

在报告最后，俞教授还表达了对精准的环境数据扩充及语音合成研究方向的看好。对于语音合成，俞教授认为合成语音数据的难点在于，不同于语音识别，语音合成是一个信息增加的过程，这个过程需要解决的问题会更为复杂，往往这种“无中生有”的过程基本上是通过引入生成模型进行解决。比方说，在低资源数据下使用VAE建模说话人空间，或者不使用句子级的VAE，而是通过逐个phone的音频提取隐变量序列z。这些都是当下比较主流的解决问题的思路。

（雷锋网雷锋网）

原创文章，未经授权禁止转载。详情见转载须知。

思必驰俞凯：端到端与半监督语音识别的技术进展 | CCF-GAIR 2020

本文地址： https://www.gpxz.com/article/c46c052e5f1d391495c4.html

上一篇：YOCSEF周年2018产学研大咖齐聚一堂成立20青

下一篇：火山引擎4K修复影片入选北影节相关技术在CV

百度PC权重历史查询

权重历史查询通过用户输入域名后，查询该域名的百度、360、神马等搜索引擎的权重历史记录，从而了解一个网站的权重变化过程。

网站模板 2024-08-06 12:55:45

教师招聘网

华图教师网是华图教育旗下重要品牌,提供教师资格网、教师招聘考试、中小学教师资格证考试、特岗教师考试公告、报名时间、报名入口、面试信息、试题资料、辅导培训等,教师招聘考试信息尽在华图教师网.

企业品牌 2026-01-21 11:52:57

成都集装箱方舱厂家

四川卡丰科技有限公司是一家专业从事成都集装箱方舱,成都住人集装箱,成都集装箱货柜定制生产与成都集装箱酒店,成都集装箱办公室销售批发以及成都设备集装箱,成都环保移动厕所,成都治安岗亭安装施工的综合性企业.公司拥有一批精干的管理人员和一支高素质的专业技术队伍,精良齐全的生产设备,上乘的产品质量,周到的售后服务.欢迎新老客户来电咨询!

商业服务 2026-01-21 12:15:33

天津工匠阀业有限公司

天津瑞五阀业有限公司专业生产不锈钢蝶阀，法兰蝶阀，脱硫蝶阀，船用阀门，焊接阀门等系列产品，质量可靠，价格优惠

优惠消费 2026-01-21 15:12:54

国鼎环宇

中小企业信用服务能力等级查询平台(简称中小企业能力查询平台)，隶属国鼎环宇(北京)信用评价服务中心，是一家专业、客观、独立的第三方信用评价服务机构

商业服务 2026-01-24 22:36:22

爱宠管家

宁波代喂宠物，上门铲屎，猫咪寄养，长期接单上门喂养宠物，全程视频安全放心,寻猫寻狗,宁波找猫服务,宁波找狗服务,钟女士13777272074

电影视频 2026-01-25 01:16:40

赚钱网

赚钱网建立于2004年，是一家老牌赚钱资讯网站。网上怎么赚钱一直是每个网站站长和网民最关心的内容，网络赚钱充满了诱惑、欺诈和不良因素，需要谨慎选择。网站怎样赚钱?做什么最赚钱？一切赚钱资讯尽在赚钱网！

新闻资讯 2026-01-25 18:01:27

石英管退火炉

长兴凯翔电炉科技有限公司从事工业炉研究、设计、开发、制造的企业，设备专用于半导体行业、石英材料行业的热加工处理。

编程开发 2026-01-25 19:36:24

中国非洲总商会

中国非洲总商会,中非总商会,Caga,Agc,民间外交

电影视频 2026-01-28 16:27:18

【天气预报30天(一个月)查询】天气预报30天

天气预报30天主要提供最新、准确、今日实时的天气预报30天(一个月)查询服务，通过天气预报30天查询结果可以知道未来30天天气预报、气温、风向，旅游、出差请收藏天气预报30天。

电影视频 2026-01-29 13:35:09

出口设备门

西朗门业是专业生产设备安全防护门品牌厂家，产品包括：出口设备卷帘门、机器人安全门、防护快速门、工作站安全门等，具备CE、UL、TUV、CSA、ISO、SGS等多项出口资质证书。在很多项目上，对标外资品牌奥伯尼、霍曼，是众多500强企业合作供应商，出口国外70多个国家。

安全杀毒 2025-02-08 03:27:09

湖南漂白粉

长沙亚中粤化工贸易有限公司是一家致力于给各行业客户提供各种质优价廉的化学类产品的厂家，主营元明粉、聚合氯化铝、聚丙烯酰胺、碳酸氢铵、硫酸亚铁、硫酸铝铵、漂白粉、小苏打、工业盐、工业葡萄糖、纯碱等产品，价格走势平稳，热销湖南长沙、株洲、湘潭、岳阳、常德、益阳、永州等地。

行业信息 2025-02-20 21:01:05

2024好玩的逃生游戏排行榜经典的逃生游戏有哪些 (2024好玩的游戏)

心跳加速，紧张刺激，欢迎来到逃生游戏的世界！在这里，经典的逃生游戏有哪些将挑战你的智慧和勇气，这些游戏以其沉浸式的环境设计、紧张的逃脱机制和丰富的剧情元素，小编为玩家们带来了一场场惊心动魄的冒险，从密室逃脱到荒野求生，每一款逃生游戏都是对玩家观察力和解决问题能力的考验，让我们开始这段寻找最佳逃生体验的旅程，体验在极限条件下的生存与逃脱...。

2025-02-11 23:03:59

小孩游戏简单好玩有哪些介绍2024 适合小孩的游戏推荐 (小孩游戏简单好玩)

小孩游戏简单好玩有哪些，今天精心推出专为儿童设计的游戏精选合集，旨在为孩子们提供一个既安全又富有教育意义的虚拟游乐场，在挑选这些游戏时，我们不仅考虑了孩子们的年龄段和成长阶段，还深入分析了他们的兴趣和学习需求，确保每一款游戏都能在娱乐的同时，激发孩子们的想象力和创造力，帮助他们在快乐中学习和成长，这些游戏内容丰富，形式多样，旨在为孩子...。

2025-02-11 21:24:58

免费剪辑音频的app合集免费剪辑音频的软件有哪些 (免费剪辑音频的软件app可免费导出)

手机里的音频，如果能进行剪辑的确可达到非常好的效果，如今有这方面需求的人也是比较多的，比如在分享音频的时候就可提前的编辑一下，那么免费剪辑音频的软件有哪些呢，如果不是特别了解的人群，可根据小编介绍的这几款软件来完成编辑的目的，一起来了解一下都有哪些，在对音频进行处理的时候，该软件具备很多特色的功能，当然不管使用什么功能都是完全免费的，...。

2025-02-11 20:17:56

免广告游戏软件大全2023 没有广告的游戏下载推荐 (免广告游戏软件推荐)

现在有很多游戏都以看广告的形式给玩家奖励，但这样还是非常影响游戏的心情和进度的，这一次小编为大家带来几款免广告游戏软件，这些游戏统统都不需要看广告，玩家只要尽情的投入到游戏的过程中，不会被突然弹出来的广告打乱进度，看到这些你是不是特别心动呢，那就跟着小编一起来欣赏一下吧，1、，纪念碑谷2，这款游戏有着绝美的画面和优雅的音乐，玩家需要在...。

2025-02-11 15:59:33

重磅 (重磅500g卫衣什么意思)

雷锋网消息，今天在深圳开幕的2018云栖大会·深圳峰会上，阿里巴巴集团资深副总裁、阿里云总裁胡晓明宣布，阿里巴巴将全面进军物联网领域，IoT是阿里巴巴集团继电商、金融、物流、云计算后新的主赛道，胡晓明在现场表示，阿里云IoT的定位是物联网基础设施的搭建者，阿里云计划在未来5年内连接100亿台设备，此外，为应对物联网带来的新挑战，阿里云...。

2024-12-09 21:25:38

搭载R7 (搭载R7-8840H的14寸笔记本)

6月2日下午，壹号本OneXPlayer为即将上市的三合一电脑游戏机OneXPlayer2ProEVA联名限量版，举行了新品媒体品鉴会，OneXPlayer2ProEVA联名限量版从包装到配件都是EVA联名设计，紫黑配色的包装，机身也是初号机经典的紫绿配色，OneXPlayer2ProEVA联名限量版搭载了最新的AMD锐龙77840U...。

2024-12-02 18:14:43

中国艺人为什么很多加入外国国籍 (中国艺人为什么不能看疯马秀)

很简单，中国人自近代以来的，窃洋，，，崇洋，心理在作祟，1、海关的态度，中国海关一看到持非大陆护照的人，立马就眉开眼笑，通关速度特别快；一看持大陆护照的人，就问很多问题，有时候刻意刁难，不让你出国，2、火车站买票，07年我在广州火车站买票，春节期间太难买了，排了很长的队，但是有一个窗口，外交礼遇通道，，专门留给港澳台等外国人，反正就是...。

2024-11-21 19:24:33

社会上混得好的人都有哪些特质

你不逼自己努力，现实都会逼你，3年前，公司里一位90后小姑娘对我说，在北京漂着太累了，她想回家考公务员，我说你考的上吗?不管能否考上，我想有一个稳定的工作，在公司工作太累了，天天加班不说，工作也不稳定，可是，稳定工作没多少工资，现在公务员就是个清水衙门，哪有什么钱，你大学毕业，好歹在大城市呆几年，多见点世面，我在北京读了4年大学了，工...。

2024-11-15 23:23:50

西风流行车质量怎样样 (西风轿车)

西风流行车质量在自主品牌中表现不错，具有较高的性价比和良好的口碑，首先，从质量层面来看，西风流行车在设计和制作环节中器重细节和质量管理，它驳回了先进的消费工艺和资料，以确保车辆的耐用性和牢靠性，例如，在车身结构方面，西风流行车驳回了高强度钢材和先进的焊接技术，以提高车身的刚性和抗撞击才干，在能源系统方面，它搭载了经过精心调校的发起机和...。

2024-07-07 05:39:36

天兵科技向巩义市民致歉将对因实验缺点遭受财富损失的居民给予抵偿 (天兵科技是干什么)

尊崇的巩义市居民、整体同行同伴及广阔社会群众，关于6月30日出现的我司天龙三号液体运载火箭一子级火箭因实验缺点坠落起火事情，在此向允许和关注咱们的广阔社会群众致以最诚挚的歉意，咱们孤负了大家的等候，本次实验地点远离巩义城市，实验开局前，我司已与外地政府联结完善安保保证措施并提早组织周边人员撤退，此次坠落箭体散落在大山深处的安保布控区内...。

2024-07-03 16:58:01

美眉梦工厂攻略攻克关卡，获得梦幻奖励

《美眉梦工厂》是一款以梦幻世界为背景，以美眉为主角的卡牌游戏，在游戏中玩家可以收集各种不同类型的卡牌，并使用它们来攻克关卡，获得梦幻奖励。攻克关卡要成功攻克关卡，玩家首先

2023-09-19 02:21:09

2017年11月网站收录数据按年月归档-重庆分类目录网

重庆分类目录网站将2017年11月共151个网站收录信息按收录时间分类整理归档列表，可以方便网友浏览按年月查询，更好地享受精彩网站的魅力！

2023-09-18 01:02:46

文章推荐

OPPO 体系之后回归一加首款高端旗舰来了 (oppo体系严重官僚主义)

1月11日，今年一加手机的发布会来得格外地早，回溯过去几年的一加旗舰手机发布会，一加7系列是在2019年5月16日发布，一加8系列则是选在了2020年4月16日，而即使是骁龙888整体档期提前的去年，一加9系列也是在开春后的3月24日才登场亮相，今年似乎刘作虎和他的团队迫不及待想要让，加油，们在新春之前就能用上新一代骁龙8旗舰，并且与...。

2024-12-09 19:13:36

资讯动态

2024青少年汽车无限创意征集活动正式启动汽车之家助力出行公益 (2024青少年美育大赛官网)

汽车文化的普及从少年儿童开始，3月4日下午，第四届青少年汽车无限创意征集活动在北京市第一零九中学举行启动仪式，活动由中国科学技术协会指导，世界新能源汽车大会与中国汽车工程学会主办，汽车之家协办，旨在传播汽车文化，增强青少年对于汽车产业的关注与热爱，启动仪式现场，北京市第一零九中学校长封学英、中国汽车工程学会副秘书长战静静、汽车之家品牌...。

2024-12-09 17:10:08

资讯动态

我们能从付费率70%的动漫公司身上学到什么 (我们能从付费看电影吗)

十几块钱的AR同人卡，和一个APP，养活了近百人的团队，上次在动漫展上看到坚叔，他的展位挤满了体验用户，隔出好几米我俩凌空交流，当雷锋网听到了这样一则有趣的见闻，联系到了上文所提及的，坚叔，——广州旨尖动漫公司的CEO陈坚，陈坚在二次元界很受欢迎，大家都亲切的称他为，坚叔，，他所在的旨尖动漫成立一年多，针对动漫爱好者研发AR内容，...。

2024-12-03 23:18:30

资讯动态

帮中小银行做风控吗专家观点丨大银行不配 (帮中小银行做保险业务)

这是一场意料之中的风暴，大型银行、中小银行、互联网平台与第三方风控企业，四方被裹挟其中，尽管在今年的工作会议，银保监会才首次提出，要推动大型银行向中小银行输出风控工具和技术，，但在这之前，业内早已有此风向——只是到了今年，中小银行独立风控困境背后的种种微妙，终于更脉络分明地呈现于台前，于中小银行而言，在失去互联网平台的流量和风控能力加...。

2024-11-30 20:20:29

资讯动态

朗强 HDMI高清矩阵延长器受欢迎的三大原因 (朗强hdmi延长器)

发表在应用案例2022，5，1810，04伴随着科技和市场需求的不断发展变化，高清矩阵在近些年来的销量不断攀升出现在消费者视线中的机会也愈加频繁，而传统普通矩阵的销量则要低于高清矩阵，专业的高清矩阵受欢迎度日益高涨实际是有多种原因的，下面笔者就来探究高清矩阵受欢迎的几个原因，朗强科技，HDMI画面分割器、信号传输器和大家分享高清矩阵受...。

2024-11-28 23:49:30

网络百科

思必驰俞凯 端到端与半监督语音识别的技术进展 (思必驰俞凯个人简介)

相关文章

文章推荐

思必驰俞凯端到端与半监督语音识别的技术进展 (思必驰俞凯个人简介)