商业语音识别系统存在高错误率 研究发现 (商业语音识别软件)

文章编号:40799 资讯动态 2024-12-03 语音识别系统 特征提取 ASR

雷锋网讯,“某些语音识别系统(ASR)的准确性可能要比之前假定的差很多。”这是最近约翰·霍普金斯大学、波兰波兹南工业大学、弗罗茨瓦夫科技大学以及初创公司Avaya的研究人员一项正在进行的研究主要发现。

这项研究对内部创建的数据集上的商业语音识别模型进行了基准测试。共同作者声称,词错误率(Word Error Rate, WER)(一种常见的语音识别性能指标)要显著高于最佳报告结果,这可能表明自然语言处理(NLP)领域存在更多待克服的问题。

据了解,目前ASR已广泛应用于诸多场景中,如电话会议、电子邮件、智能设备等。ASR模型的综合基准中,标准语料库的WER仅有2%~3%,而正是这一统计数据遭到了上述作者的质疑。他们声称,大多数ASR的交互场景都是在“类似于聊天机器人”的背景下进行的,说话人往往因为意识到跟他们的交互对象是聊天机器人,因此通常会将命令简化成结构紧凑的简短词语,而非正常的自然对话。

作者基于来自1595个供应商和1261个客户的50个呼叫中心对话数据集对几套ASR系统进行了评估。其通常时间长达8.5个小时,其中2.2个小时是对话。通过测试,作者发现ASR系统的错误率基本在15%以下,这与基准测试中的2%相悖。

研究发现,商业语音识别系统存在高错误率

研究人员将这一问题归结为领域适应性问题——基准测试使用了单一性语料,例如Librispeech(1000小时英语有声读物录音)、WSJ(新闻口述的谈话)和Switchboard(电话交谈),这些都可能太过简单而无法真正挑战ASR系统的可靠性。

而且,尽管他们试图刻意模仿真实、自发的对话,但本质上还是受约束的,比如需要配音演员,就某一合适主题进行脚本/半脚本对话,而且正是由于配音演员的存在,几乎都不需要考虑因性别、母语因素而产生的发音问题。

作为一种补救措施,研究人员建议ASR和NLP社区收集和注释音频数据集,使其更好地与ASR系统的实际应用场景保持一致,他们还呼吁建立更具包容性的声学模型,更广泛的方言语料库,这些改变将会促进音频信号处理的技术改进。

因此,这些问题并非无法克服。“学界和工业界应该深思熟虑,考虑可以创建高质量的测试数据集。我们认为,对ASR准确性的过于乐观会损害NLP领域下游应用程序的开发。”研究人员最后表示。

雷锋网讯,“某些语音识别系统(ASR)的准确性可能要比之前假定的差很多。”这是最近约翰·霍普金斯大学、波兰波兹南工业大学、弗罗茨瓦夫科技大学以及初创公司Avaya的研究人员一项正在进行的研究主要发现。

这项研究对内部创建的数据集上的商业语音识别模型进行了基准测试。共同作者声称,词错误率(Word Error Rate, WER)(一种常见的语音识别性能指标)要显著高于最佳报告结果,这可能表明自然语言处理(NLP)领域存在更多待克服的问题。

据了解,目前ASR已广泛应用于诸多场景中,如电话会议、电子邮件、智能设备等。ASR模型的综合基准中,标准语料库的WER仅有2%~3%,而正是这一统计数据遭到了上述作者的质疑。他们声称,大多数ASR的交互场景都是在“类似于聊天机器人”的背景下进行的,说话人往往因为意识到跟他们的交互对象是聊天机器人,因此通常会将命令简化成结构紧凑的简短词语,而非正常的自然对话。

作者基于来自1595个供应商和1261个客户的50个呼叫中心对话数据集对几套ASR系统进行了评估。其通常时间长达8.5个小时,其中2.2个小时是对话。通过测试,作者发现ASR系统的错误率基本在15%以下,这与基准测试中的2%相悖。

研究人员将这一问题归结为领域适应性问题——基准测试使用了单一性语料,例如Librispeech(1000小时英语有声读物录音)、WSJ(新闻口述的谈话)和Switchboard(电话交谈),这些都可能太过简单而无法真正挑战ASR系统的可靠性。

而且,尽管他们试图刻意模仿真实、自发的对话,但本质上还是受约束的,比如需要配音演员,就某一合适主题进行脚本/半脚本对话,而且正是由于配音演员的存在,几乎都不需要考虑因性别、母语因素而产生的发音问题。

作为一种补救措施,研究人员建议ASR和NLP社区收集和注释音频数据集,使其更好地与ASR系统的实际应用场景保持一致,他们还呼吁建立更具包容性的声学模型,更广泛的方言语料库,这些改变将会促进音频信号处理的技术改进。

因此,这些问题并非无法克服。“学界和工业界应该深思熟虑,考虑可以创建高质量的测试数据集。我们认为,对ASR准确性的过于乐观会损害NLP领域下游应用程序的开发。”研究人员最后表示。

(雷锋网雷锋网)

原创文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/d1b734217917ef356053.html
全局中部横幅
全局中部横幅
华印

华印网是汇集印前技术,PDF拼版,防伪包装,数码印刷,合版印刷,数码印刷及CTP等印刷技术,提供软件汉化,插件汉化,扩展插件,印刷流程,ctp输出,字体,印能捷,esko,CorelDRAW,CTP,PDF,InDesign,Illustrator软件讨论的综合性印刷社区

太平洋科技

太平洋科技是专业IT门户网站,为用户和经销商提供IT资讯和行情报价,涉及电脑,手机,数码产品,软件等.

【林柒句子】

林柒学园知识服务平台为您精选各种优质的技能学习视频,撩妹技巧教学,提高情商教程,ps、ae、pr、等设计剪辑软件使用教程,还包含了网赚新项目,以及健身减肥瑜伽等优质视频教学,林柒学园励志提供各类教学视频资源免费下载。

武汉理工大学青岛研究院

高新技术孵化、成果转化、前沿科技研究

匀质自保温砌块

武汉专业新型轻质隔墙板生产厂家,产品有匀质自保温砌块,ALC轻质隔墙板,ALC墙板,复合自保温砌块,内外墙自保温一体墙板,自保温外墙板,轻质复合墙板,水泥轻质墙板,轻质隔墙等新型轻质隔墙板材料,湖北轻质隔墙板厂家及武汉轻质隔墙板施工欢迎咨询博悦佳:4000139278

扬州先锋化工有限公司

扬州先锋化工有限公司-先锋拥有专业的农化团队,为客户提供从配方、剂型、药理、植保等方面专业的农化知识服务,并以“先锋”为品牌,和客户深层次的合作,在俄罗斯、乌克兰、白俄罗斯、摩尔多瓦、土耳其、也门、埃及、美国、巴拉圭等国家进行农药等级,取得农药登记证近百个。

尚品怡园(北京)装饰工程有限公司

尚品怡园(北京)装饰工程有限公司定位于为中国精英阶层提供美好生活解决方案者。为大宅家庭提供“设计,选料,施工,配饰、售后”于一体的服务者。“您身边的别墅专家”,尚品怡园装饰以这一独特的模式和经营理念,在行业中独树一帜。

九州驰

九州驰,成都税务筹划,四川税务筹划,九州驰提供的税务筹划服务,能够为个人和各类企业提供合理合法的筹划方案,能够一站式完成个人和各类企业的税务筹划项目

山东华泰钢结构工程有限公司

山东华泰钢结构工程有限公司专业从事建筑工程、商砼生产、钢结构工程、玻璃幕墙工程及装饰装潢工程等为一体的综合性建筑企业。

项目商讯网

项目商讯网是免费综合型B2B电子商务平台,分类信息平台,面向五金工具,机械设备,电力电子,设备维修,服装服饰,化工原料,物流运输,酒店餐饮等各大热门行业,帮助企业进行免费的高效推广

罗田招聘信息网

罗田本地招聘信息网站,专注黄冈人才市场,涵盖教师|事业单位|医院护士等多个领域。罗田招聘信息网专注于同城招聘,一键找工作,为您提供最新|最全的求职信息,让求职之路更加便捷。


全局底部横幅