未来十年语音识别将朝着这五个方向发展 AI (未来十年的)

文章编号：41319 资讯动态 2024-12-03 AI 人机协同语音识别多语言ASR模型

在过去的两年中，自动语音识别（Automatic Speech Recognition, ASR）在商用上取得了重要的发展，其中一个衡量指标就是：

多个完全基于神经网络的企业级 ASR 模型成功上市，

2016年，微软研究院发表了一篇文章，宣布他们的模型在已有25年历史的“Switchboard”数据集上，达到了人类水平（通过单词错误率来衡量）。

ASR 的准确性仍在不断提高，在更多的数据集和用例中逐渐达到人类水平。

未来十年，AI 语音识别将朝着这五个方向发展

随着 ASR 技术的识别准确度大幅提升，同时应用场景越来越丰富，我们相信：现在还不是 ASR 商用的巅峰，该领域的研究与市场应用还有待发掘。

我们预计未来十年 AI 语音的相关研究和商业系统将重点攻克以下五个领域：

多语言ASR模型

“在未来十年，我们将在生产环境中部署真正的多语言模型，使开发人员能够构建任何人都能理解任意语言的应用程序，从而真正向全世界释放语音识别的力量。”

未来十年，AI 语音识别将朝着这五个方向发展

图源：Alexis Conneau 等人在 2020 年发表的“Unsupervised cross-lingual representation learning for speech recognition”论文

如今的商用 ASR 模型主要使用英语数据集进行训练，因此对英语输入具有更高的准确性。由于数据可用性和市场需求，学术界和工业界对英语的长期关注度更高。法语、西班牙语、葡萄牙语和德语等商业流行语言的识别准确度虽然也较为合理，但显然存在一个训练数据有限且ASR输出质量相对较低的语言长尾。

此外，大多数商业系统都是基于单一语言，这无法适用于许多社会特有的多语言场景。多语言可以采用背靠背语言的形式，例如双语国家的媒体节目。亚马逊最近推出了一款集成语言识别（LID）和ASR的产品，在处理这一问题上取得了长足进步。相比之下，跨语言（也称为语码转换）是个人使用的一种语言系统，该系统可以将两种语言的单词和语法结合在同一个句子中。这是一个学术界继续取得有趣进展的领域。

正如自然语言处理领域采用多语言方法一样，我们将会看到ASR在未来十年也会效仿。随着我们学习如何利用新兴的端到端技术，我们将会训练可以在多种语言之间进行迁移学习的大规模多语言模型。Meta的XLS-R就是一个很好的例子：在一个展示中，体验者可以说21种语言中的任何一种，而不需要指定某种语言，模型最终都会翻译成英语。通过理解和应用语言之间的相似性，这些更智能的ASR系统将为低资源语言和混合语言用例提供高质量的ASR可用性，并将实现商业级别的应用。

丰富的标准化输出对象

“在未来十年，我们相信商业 ASR 系统将输出更丰富的转录对象，其中包含的内容将不止简单的单词。此外，我们预计，这种更丰富的输出将得到W3C等标准组织的认可，以便所有API都将返回类似构造的输出。这将进一步释放世界上每个人的语音应用潜力。”

尽管国家标准技术研究院（NIST）在探索“丰富转录”方面有着悠久传统，但在将其纳入ASR输出的标准化和可扩展格式方面仍是浅尝辄止。丰富转录的概念最初涉及大写、标点和日记化，但在某种程度上扩展到说话人角色和一系列非语言性言语事件。预期的创新包括转录来自不同说话者、不同情绪和其他副语言特征的重叠语音，以及一系列非语言甚至非人类的语音场景和事件，还可以转录基于文本或语言多样性的信息。Tanaka等人描绘了一个用户可能希望在不同丰富程度的转录选项中进行选择的场景，显然，我们预测的附加信息的数量和性质是可指定的，这取决于下游应用。

传统的ASR系统能够在识别口语单词的过程中生成多个假设的网格，这些已被证明在人工辅助转录、口语对话系统和信息检索中大有裨益。在丰富的输出格式中包含n-best信息将鼓励更多用户使用ASR系统，从而改善用户体验。虽然目前不存在用于构建或存储语音解码过程中当前生成或可能生成的附加信息的标准，但CallMiner的开放语音转录标准（OVTS）朝这个方向迈出了坚实的一步，使企业易于探索和选择多个ASR供应商。

我们预测，在未来，ASR系统将以标准格式产生更丰富的输出，从而支持更强大的下游应用程序。例如，ASR系统可能会输出全部可能网格，并且应用程序可以在编辑转录内容时使用这些附加数据进行智能自动转录。类似地，包括附加元数据（如检测到的区域方言、口音、环境噪声或情绪）的ASR转录可以实现更强大的搜索应用。

面向所有人的大规模 ASR

“在这十年中，大规模的 ASR（即私有化、可负担、可靠和快速）将成为每个人日常生活的一部分。这些系统将能够搜索视频，索引我们参与的所有媒体内容，并使世界各地的听力受损消费者能够访问每个视频。ASR将是对每一个音频和视频都实现可访问和可操作的关键。”

我们可能都在大量使用音视频软件：播客、社交媒体流、在线视频、实时群聊、Zoom会议等等。然而相关的内容实际上很少被转录。如今，已经成为ASR API的最大市场之一，并将在未来十年呈指数级增长，特别是考虑到它们准确性和经济性。话虽如此，ASR转录目前仅用于特定应用程序（广播视频、某些会议和播客等）。因此，许多人无法访问此媒体内容，并且在广播或活动结束后很难找到相关信息。

在未来，这种情况将会改变。正如Matt Thompson在2010年预测的那样，在某种程度上，ASR价格廉价并被广泛普及，以至于我们将体验到他所谓的“演讲性”。我们预计，未来几乎所有音频和视频内容都将被转录，并且可立即访问、可存储、可大规模搜索。但ASR的发展不会到此停滞，我们还希望这些内容具有可操作性。我们希望消费或参与的每个音视频会提供额外的上下文，例如从播客或会议中自动生成的见解，或视频中关键时刻的自动总结等等，我们希望NLP系统可以将上述处理日常化。

人机协同

“到本世纪末，我们将拥有不断发展的ASR系统，它就像一个活的有机体，在人类的帮助或自我监督下不断学习。这些系统将从现实世界中的不同渠道学习，以实时而非异步的方式理解新单词和语言变体，自我调试并自动监控不同的用法。”

随着ASR成为主流并涵盖越来越多的用例，人机协同将发挥关键作用。ASR模型的训练很好地体现了这一点。如今，开源数据集和预训练模型降低了ASR供应商的准入门槛。然而，训练过程仍然相当简单：收集数据、注释数据、训练模型、评估结果、改进模型。但这是一个缓慢的过程，并且在许多情况下，由于调整困难或数据不足而容易出错。Garnerin等人观察到，元数据缺失和跨语料库表示的不一致性使得在ASR性能方面难以保证同等的准确性，这也是Reid和Walker在开发元数据标准时试图解决的问题。

在未来，人类将通过智能手段高效地监督ASR训练，在加速机器学习方面发挥日益重要的作用。人在回路方法将人工审查员置于机器学习/反馈循环中，可以对模型结果进行持续审查和调整。这会使机器学习更快、更高效，从而产生更高质量的输出。今年早些时候，我们讨论了ASR的改进如何使Rev的人工转录员（称为“Revvers”）能够对ASR草案进行后期编辑，从而提高工作效率。Revver的转录可以直接输入到改进的ASR模型中，形成良性循环。

对于ASR，人类语言专家仍然不可或缺的一个领域是反向文本规范化（ITN），他们将识别的字符串（如“five dollars”）转换为预期的书面形式（如“$5”）。Pusateri等人提出了一种使用“手工语法和统计模型”的混合方法，Zhang等人继续沿用这些思路，用人工制作的FST约束RNN。

负责任的 ASR

“与所有人工智能系统一样，未来的ASR系统将坚持更严格的人工智能伦理原则，以便系统平等对待所有人，可解释性程度更高、对其决策负责、并尊重用户及其数据的隐私。”

未来的ASR系统将遵循人工智能伦理的四项原则：公平性、可解释性、尊重隐私和问责制。

公平性： 无论说话者的背景、社会经济地位或其他特征如何，公平的ASR系统都能识别语音。值得注意的是，构建这样的系统需要识别并减少我们的模型和训练数据中的偏差。幸运的是，政府、非政府组织和企业已经着手创建识别和减轻偏见的基础设施。

可解释性： ASR系统将不再是“黑盒”：它们将根据要求对数据收集与分析、模型性能与输出过程进行解释。这种附加的透明度要求可以对模型训练和性能进行更好的人为监督。与Gerlings等人一样，我们从一系列利益相关者（包括研究人员、开发人员、客户，以及Rev案例中的转录学家）的角度来看待可解释性。研究人员可能想知道输出错误文本的原因，以便缓解问题；而转录学家可能需要一些证据来证明ASR为什么会这么认为，以帮助他们评估其有效性，特别是在嘈杂的情况下，ASR可能比人“听”得更好。Weitz等人在音频关键词识别的背景下，为终端用户实现可解释性采取了重要的初步措施。Laguarta和Subirana已将临床医生指导的解释纳入用于阿尔茨海默症检测的语音生物标记系统。

尊重隐私： 根据各种美国和国际法律，“语音”被视为“个人数据”，因此，语音记录的收集和处理受到严格的个人隐私保护。在Rev，我们已经提供了数据安全和控制功能，未来的ASR系统将进一步尊重用户数据的隐私和模型的隐私。在许多情况下，这很可能涉及将ASR模型推向边缘（在设备或浏览器上）。语音隐私挑战正在推动这一领域的研究，许多司法管辖区，如欧盟，已经开展立法工作。隐私保护机器学习领域有望引起大家对技术这一关键方面的重视，使其能够被公众广泛接受和信任。

问责制： 我们将对ASR系统进行监控，以确保其遵守前三项原则。反过来需要投入资源和基础设施，以设计和开发必要的监测系统，并针对调查结果采取措施。部署ASR系统的公司将对其技术的使用负责，并为遵守ASR伦理原则做出具体努力。

值得一提的是，作为ASR系统的设计者、维护者和消费者，人类将负责实施和执行这些原则——这是人机协同的又一个示例。

更多内容，点击下方关注：

未来十年，AI 语音识别将朝着这五个方向发展

版权文章，未经授权禁止转载。详情见转载须知。

未来十年，AI 语音识别将朝着这五个方向发展

本文地址： https://www.gpxz.com/article/7243929a8f4789ed5be5.html

上一篇：助力国产开源生态发展腾讯犀牛鸟开源人才培

下一篇：Snowflake太贵我们与7位专家聊了聊手撕Clic

游戏加载中...

群黑h5游戏是无端手机页游,H5游戏先锋，微信小游戏和好玩的h5游戏，零等待，无需下载

游戏网游 2026-01-20 22:22:55

TechWeb.com.cn

TechWeb专注于互联网消费领域，每日专业提供互联网产品、智能设备及互联网服务等方面的最新资讯，呈现为网站、微博、微信、APP等全媒体新形态，是国内领先的互联网消费互动媒体。

游戏网游 2026-01-21 11:26:26

盘八斗

工程人的项目小秘书

设计美化 2026-01-21 12:36:19

崛杞

严选提供＋崛杞枸杞红配绿225g/盒红绿阴阳搭配养生不止翻倍＋每周特卖＋包括＋商品名称＋菜谱推荐以及＋商品名称＋图片、品牌、价格、行情、评价、饮食文化等信息。选购＋商品名称＋上严选，开启美好生活！

图片摄影 2024-08-17 00:39:34

高效无声破碎剂

东科建材生产高效无声膨胀剂,70-90大孔径(潜孔钻)静态破碎剂,岩石爆破剂,无声炸药价格,破裂剂,静爆剂,混凝土破碎剂,养护剂,水性脱模剂,脱模油,模板漆.广泛用于矿山开采,石头静力破碎,混凝土拆除!

网站模板 2026-01-25 01:07:37

科普展品

江苏研学创展科教设备有限公司是一家专业致力于科普馆策划及科普展品研发生产的厂家,从事校园科技馆及各主题科普馆的整体策划与设计,已为多地用户提供了专业的科普馆策划、设计及展品研发服务.

设计美化 2026-01-25 15:57:45

育儿知识

婴联宝专注于孕期、产后、母婴护理的育儿知识，涵盖了婴儿喂养、睡眠、健康、早教等方面的知识。学习如何正确哺乳、处理婴儿的常见健康问题、建立良好的睡眠习惯等。

健康医疗 2026-01-25 19:06:14

七瓜知识网

七瓜知识网专业的门户信息网站,涵盖了|环涛机电科技(常州)有限公司|生活|科技|房产|互联网|汽车信息与一站的综合性专门户网站。

互联资讯 2026-01-28 19:01:45

哈尼手游网

哈尼手游网为您提供各种最新最热的手机游戏攻略，手游副本攻略，手游关卡攻略，还提供了最全的新手攻略和各种手游技巧攻略，只为让您更懂手游！

游戏网游 2026-01-29 11:52:03

宝钢合金管

天津鑫海钢铁有限公司销售热线：189-2055-1789常年生产销售：宝钢合金管,P91合金管,T91合金管,P22合金钢管,15CrMoG合金钢管;厂家价格直销，保质保量，现货规格充足，特殊规格可定做！

电影视频 2026-01-29 16:58:31

尤尼赛尔工业品平台

工业产品采购B2B电子商务平台，致力于成为中国企业工业产品采购的贴心顾问。向每一位访问者提供丰富的产品信息、快速的产品搜索、便捷的价格查询、方便的报价申请和流畅的产品订购，节省您的采购时间和精力。

搜索引擎 2025-01-15 22:46:51

云快付国内领先移动支付平台

云快付致力于为企业提供便捷高效的第三方支付接入服务

商业服务 2026-01-30 16:47:32

为什么我不支持小白付费 (为什么我不支持)

在社群里面经常看到有小白在寻找项目，购买项目而被割韭菜，我是不推荐小白去购买项目的，小白有时候无法甄别一个项目的好坏与否，可能很多项目的收益并不能弥补购买价格，而且小白缺少的不一定是所谓的项目，1.镰刀遍地如今内卷的情况下，很多人为了盈利是不择手段的，包装，宣传，吹捧，为的就是吸引小白，出售项目，收割韭菜，获得利益，1.1项目镰刀前一...。

2025-01-30 23:00:58

这家公司想让普通医院也有机器学习能力 (这家公司想让员工离职)

HealthCatalyst公司发布了免费开源机器学习和人工智能工具，这是一家美国医疗数据管理分析服务公司，他们的创始人全都来自于一家美国顶尖的医疗保健系统，他们掌握浩繁的数据资料，对数据分析方法了如指掌，在结果优化方面具有丰富的经验，创立公司初，他们主要为诊所和医院创建数据库，之后他们逐渐意识到只做基本的数据管理是不够的，他们需要能...。

2024-12-09 17:39:25

数据是硬伤诊疗为何还停留在实验室 AI (数据才是硬道理)

medicaltranscriptionsservice想象一下，在未来的某一天，如果AI诊疗成为了现实，你就能直接在医院用电脑看病了，通过化验的数据，系统很快就给了你一个诊断结果，让你乖乖去开药吃药，甚至决定要不要手术……虽然这个过程听上去很便捷也很美好，但要抵达AI诊疗的乌托邦，实际上并没有那么简单，且不论它的砖瓦尚在建设当中，要...。

2024-12-03 22:12:29

京东稳了技术转型 (京东京稳赢)

京东是一家传统的零售商，还是科技变革者，这是摆在刘强东及其他京东人面前一个很现实的问题——因为京东一直要做亚马逊的翻版，而亚马逊是全球科技投入最高的公司，京东能下定技术转型的决心吗，这一切，在11月19日的2019JDD，京东全球科技探索者大会，上，似乎有所回答，今天，京东宣布了整体将向技术转型，集团旗下京东零售、京东数字科技、京东物...。

2024-11-30 23:48:32

小帅BP2102Z通过U盘安装软件教程 (小帅BP2102Z)

选择复制进去的apk，按确认键即可进行安装！当然也有可能系统不会自动弹出文件选择界面，这时候就需要我们去系统里找到文件管理器或者应用安装等功能来识别U盘或者SD卡里的安装包才能安装了，2、利用自带的应用商店下载文件浏览器，安装第三方应用某些智能电视、盒子、投影仪，自带的文件浏览器出于某些原因屏蔽了APK应用的显示，所以无法读取APK应...。

2024-11-25 18:43:31

他能射出如此多子弹令人惊讶执法人员未发现他在屋顶袭击特朗普枪手开枪前 FBI发布会

据美联社7月14日报道，美国联邦考查局，FBI，14日清晨示意，特朗普遭袭事情的枪手是来自宾夕法尼亚州的20岁女子托马斯·马修·克鲁克斯，ThomasMatthewCrooks，该机构示意考查仍在启动中，其发言人称枪手能够开枪射出如此多的子弹，令人惊讶，外地期间7月13日晚，FBI发言人凯文·罗杰克，KevinRojek，举办资讯...。

2024-07-15 22:37:54

mp3转换器怎样用 (mp3转换器免费版)

生存中有时刻咱们会解决一些音频文件，这个时刻会用到MP3转换器，那MP3转换器该经常使用如下，工具，电脑型号，联想GeekPro2020、系统版本，Win10家庭版、软件版本，mp3转换器2008，1、在电脑上点击关上MP3转换器，2、在主界面，点击文件，3、在弹出的菜单栏，点击减少文件，4、减少文件后，设置转换格局和参数，5、设置实...。

2024-07-10 22:53:30

飞驰gl350 (飞驰GLC)

1车型尺寸轴距不同飞驰GL350长5121mm宽2141mm高1849mm，轴距3075mm飞驰GL款47LAT长5099mm宽1920mm高1840mm，轴距超越3米2能源不同飞驰GLL涡轮增压柴油V6发起机，排量有3，飞驰gl350中规版和美规版的区别如下一目前的市场上由于8月年份的改款，2014款飞驰GL350美规版基本只要大批...。

2024-07-08 01:02:47

长安奔奔mini排量多少 (长安奔奔mini)

长安奔奔mini的排量是1.0L，长安奔奔1.0油耗实在油耗5.5L每100km，依据长安奔奔厂家官网数据得悉，长安奔奔1.0的综合工况油耗为5.5L每100km，市区工况油耗为6.5L每100km，高速工况油耗为4.9L每100km，长安奔奔mini15款1.0怎样样好，1、长安奔奔mini15款1.01驳回1.0升发起机，领有较高...。

2024-07-06 16:59:02

亚马逊礼品卡交易平台有哪些？

亚马逊礼品卡是一种可以用于在亚马逊平台上购物的预付卡。虽然亚马逊是一个知名的电子商务平台，但它并没有官方的礼品卡交易平台。亚马逊礼品卡通常可以在亚马逊官方网站、亚马逊线下零售店或授权的第三方零售商处购

2023-11-19 03:22:40

Nuke14破解版下载-Nuke14中文破解版v14.1v1免费版

Nuke14中文破解版是一款视频后期制作工具，可以帮助用户制作视频后期特效，拥有完整的3D系统，可以帮助用户合成想要的特效。

2023-11-10 19:46:17

2017年06月网站收录数据按年月归档-重庆分类目录网

重庆分类目录网站将2017年06月共111个网站收录信息按收录时间分类整理归档列表，可以方便网友浏览按年月查询，更好地享受精彩网站的魅力！

2023-09-18 01:02:46

文章推荐

视频号的直播玩法手把手教你直播带货 (视频号的直播回放在哪里)

微信是一个庞大的生态流量池，流量的优势对于我们很多人来说都看得非常清楚了，那么该怎么抓住视频号的流量变现呢?，当下是短视频的时代，视频号也在紧追不舍，随着功能的不断完善，目前视频号短视频，长视频，直播带货已经趋于完善，而且视频号的流量将会是微信中最主要的流量，在我们讨论视频号如何直播前，我们要了解他的玩法规则，俗话说，知彼知己，方能...。

2025-01-31 00:39:12

网络百科

《百炼成神[第三季]》下载_迅雷下载_动画片

标题百炼成神译名百炼成神第集百炼成神第一季百炼成神之百炼千锤年代产地中国大陆类别动作动画奇幻古装语言汉语普通话评分人评价豆瓣评分人评价导演张帅郑佳编剧孙甜夜雪徐海啸杨行之王欣怡武芯琪演员张沛王冰甜嗣航栾祥瑾宋国庆孙恺寅黄进泽唐昊桑毓泽张坤张若瑜马程未陈彦亦苗洋姚铭舜陈赵梓涵张桐铭丁翔威于凯隆简介年月日起在优酷视频全网独...

2026-02-03 00:41:16

娱乐热点

加盟法澜娇人靠谱吗加盟前景分析 (加盟法澜娇人地址在哪里?)

美容行业对产品以及技术求是很高的，产品作用比较明显、技术专业的品牌，也能够吸引更多消费者的前往，而对于创业者来讲，想要在美容行业得到稳定快速的发展，选择品牌的时候一定要谨慎，不仅要注意品牌在市场的影响力，也要了解加盟之后是否会给予一定的扶持，法澜娇人作为有名的护肤品牌，其实专业性是比较强的，因此也受到了创业者的关注，那么加盟法澜娇人靠...。

2024-12-21 15:40:51

创业加盟

新鲜智造想要打造一条新型产业链买生鲜送冰箱 (新鲜制造唱片公司)

新鲜智造就是用这种跳脱出来的思维，做出了一款有别于传统家电商所做的冰箱——一款，不要钱的，冰箱，本周二，雷锋网编辑就来到新鲜智造一探究竟，虽然在现场并没有看到新鲜智造即将于5月正式发布的冰箱，不过据CEO胡昌斌表示，他们所生产的冰箱所配备的功能能够与市面上8000~11000的智能冰箱看齐，新型的商业模式虽然没有看到冰箱的具体实物，但...。

2024-12-03 22:43:58

资讯动态

notability怎样添加页面 (notability软件)

notability怎样添加页面，notability软件做笔记的实用性很强，用户可以在自己的笔记前后增加无限的纸张，去进行笔记，那么应该怎么添加笔记的页面呢，还不清楚的用户就一起来看看吧！...。

2024-12-01 23:57:24

技术教程

未来十年 语音识别将朝着这五个方向发展 AI (未来十年的)

相关文章

文章推荐

未来十年语音识别将朝着这五个方向发展 AI (未来十年的)