商业语音识别系统存在高错误率 研究发现 (商业语音识别软件)

文章编号:40799 资讯动态 2024-12-03 语音识别系统 特征提取 ASR

雷锋网讯,“某些语音识别系统(ASR)的准确性可能要比之前假定的差很多。”这是最近约翰·霍普金斯大学、波兰波兹南工业大学、弗罗茨瓦夫科技大学以及初创公司Avaya的研究人员一项正在进行的研究主要发现

这项研究对内部创建的数据集上的商业语音识别模型进行了基准测试。共同作者声称,词错误率(Word Error Rate, WER)(一种常见的语音识别性能指标)要显著高于最佳报告结果,这可能表明自然语言处理(NLP)领域存在更多待克服的问题。

据了解,目前ASR已广泛应用于诸多场景中,如电话会议、电子邮件、智能设备等。ASR模型的综合基准中,标准语料库的WER仅有2%~3%,而正是这一统计数据遭到了上述作者的质疑。他们声称,大多数ASR的交互场景都是在“类似于聊天机器人”的背景下进行的,说话人往往因为意识到跟他们的交互对象是聊天机器人,因此通常会将命令简化成结构紧凑的简短词语,而非正常的自然对话。

作者基于来自1595个供应商和1261个客户的50个呼叫中心对话数据集对几套ASR系统进行了评估。其通常时间长达8.5个小时,其中2.2个小时是对话。通过测试,作者发现ASR系统的错误率基本在15%以下,这与基准测试中的2%相悖。

研究,商业语音识别系统存在高错误率

研究人员将这一问题归结为领域适应性问题——基准测试使用了单一性语料,例如Librispeech(1000小时英语有声读物录音)、WSJ(新闻口述的谈话)和Switchboard(电话交谈),这些都可能太过简单而无法真正挑战ASR系统的可靠性。

而且,尽管他们试图刻意模仿真实、自发的对话,但本质上还是受约束的,比如需要配音演员,就某一合适主题进行脚本/半脚本对话,而且正是由于配音演员的存在,几乎都不需要考虑因性别、母语因素而产生的发音问题。

作为一种补救措施,研究人员建议ASR和NLP社区收集和注释音频数据集,使其更好地与ASR系统的实际应用场景保持一致,他们还呼吁建立更具包容性的声学模型,更广泛的方言语料库,这些改变将会促进音频信号处理的技术改进。

因此,这些问题并非无法克服。“学界和工业界应该深思熟虑,考虑可以创建高质量的测试数据集。我们认为,对ASR准确性的过于乐观会损害NLP领域下游应用程序的开发。”研究人员最后表示。

雷锋网讯,“某些语音识别系统(ASR)的准确性可能要比之前假定的差很多。”这是最近约翰·霍普金斯大学、波兰波兹南工业大学、弗罗茨瓦夫科技大学以及初创公司Avaya的研究人员一项正在进行的研究主要发现。

这项研究对内部创建的数据集上的商业语音识别模型进行了基准测试。共同作者声称,词错误率(Word Error Rate, WER)(一种常见的语音识别性能指标)要显著高于最佳报告结果,这可能表明自然语言处理(NLP)领域存在更多待克服的问题。

据了解,目前ASR已广泛应用于诸多场景中,如电话会议、电子邮件、智能设备等。ASR模型的综合基准中,标准语料库的WER仅有2%~3%,而正是这一统计数据遭到了上述作者的质疑。他们声称,大多数ASR的交互场景都是在“类似于聊天机器人”的背景下进行的,说话人往往因为意识到跟他们的交互对象是聊天机器人,因此通常会将命令简化成结构紧凑的简短词语,而非正常的自然对话。

作者基于来自1595个供应商和1261个客户的50个呼叫中心对话数据集对几套ASR系统进行了评估。其通常时间长达8.5个小时,其中2.2个小时是对话。通过测试,作者发现ASR系统的错误率基本在15%以下,这与基准测试中的2%相悖。

研究人员将这一问题归结为领域适应性问题——基准测试使用了单一性语料,例如Librispeech(1000小时英语有声读物录音)、WSJ(新闻口述的谈话)和Switchboard(电话交谈),这些都可能太过简单而无法真正挑战ASR系统的可靠性。

而且,尽管他们试图刻意模仿真实、自发的对话,但本质上还是受约束的,比如需要配音演员,就某一合适主题进行脚本/半脚本对话,而且正是由于配音演员的存在,几乎都不需要考虑因性别、母语因素而产生的发音问题。

作为一种补救措施,研究人员建议ASR和NLP社区收集和注释音频数据集,使其更好地与ASR系统的实际应用场景保持一致,他们还呼吁建立更具包容性的声学模型,更广泛的方言语料库,这些改变将会促进音频信号处理的技术改进。

因此,这些问题并非无法克服。“学界和工业界应该深思熟虑,考虑可以创建高质量的测试数据集。我们认为,对ASR准确性的过于乐观会损害NLP领域下游应用程序的开发。”研究人员最后表示。

(雷锋网雷锋网)

原创文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/d1b734217917ef356053.html
全局中部横幅
全局中部横幅
新泉自来水(明光)有限公司

自来水有限责任公司,供水,新泉

瑞文时尚潮流

瑞文时尚潮流是一个潮流资讯分享的网站,为您提供关于护肤化妆,穿搭指南,设计师品牌等方面的知识

苏州金属材料

苏州市金来达科技有限公司成立于2001年,是一家集研发、生产和销售机加工工程塑料和特种工程塑料的公司,并拥有国内外多个知名品牌的产品代理权。公司为中外客户提供稀缺、优质的各种配套材料,是长三角规模较大的绝缘材料及工程塑料的供应商之一。我们的目标是:引领长三角,覆盖全中国

北京创新实践职业技能鉴定中心

创新实践职业技能鉴定中心是根据国家创新驱动发展战略纲要指导,加强大学生与社会从业人员创新实践能力培养、培养创新型人才推动科技创新的需要而设立,它拥有强大师资团队、整合教学资源,实施个性化培养、创新实践能力培养的重要平台。

北京连年胜科技有限公司

连年胜贸易有限公司为一家合资企业,致力于精密仪器制造技术和计算机图象处理软件的研发,从事发展尖端光学仪器、精密机械、计算机相结合的(光、机、电一体化)光学仪器开发和销售。

Calicat:AI产品原型设计

整合了原型设计、需求管理和任务管理,以更现代的方式满足产品经理在各种工作环境中的需求,助力产品设计师、交互设计师、工程师、产品经理等整个产品研发团队实现高效的产品交付。

上海快网网络信息技术有限公司

上海快网-致力于为企业提供最专业,最便捷,最全面的互联网服务,帮助企业打开世界经济大门.是首批通过国家通讯管理局ISP资质认证备案接入商,国内ISP市场的老牌网络服务商.快网主营业务:服务器托管,服务器租用,虚拟主机,域名注册,VPS,CDN加速等.全国统一热线:40060-91365(网络就要365服务).

丽水市耀佳轴承有限公司

丽水市耀佳轴承有限公司主要生产:直线轴承、法兰直线轴承、直线导轨、轴芯式导轨、直线滑块、直线光轴滚珠丝杆等。主营产品:杆端关节轴承,螺栓型滚轮滚针轴承,丝杆支撑座等。并可承接各种非标件设计、生产加工。

废钢破碎机多少钱一台,废钢破碎机价格

豫见科技专业生产符合环保要求的废钢破碎机,要了解废钢破碎机多少钱一台?咨询废钢破碎机价格,请拨打:18519994999

好软下载网

好软下载网,致力于为移动端手机用户提供免费好用的安卓、苹果手机游戏与应用软件下载,海量热门游戏,精品冷门小众作品随时下载体验,还包含最新游戏资讯,游戏行业新动态,软件教程,游戏软件排行榜前十名,热门游戏标签合集等内容。

暗黑破坏神3

暗黑破坏神3游戏专题;提供暗黑破坏神3中文版下载,暗黑破坏神3攻略大全,暗黑破坏神3汉化补丁,暗黑破坏神3视频解说,攻略视频,修改器,汉化下载,完美存档,MOD,配置,教学,截图,壁纸等资料。更多《暗黑破坏神3》相关内容尽在游侠网。

全局底部横幅