基于Azure云构建 赋能口语学习的教与学 微软上线语音评测功能 (基于azure ad的sso)

文章编号:37974 资讯动态 2024-11-30 口语学习 微软 语音评测

近年来,随着人工智能技术的不断成熟,企业数字化转型步伐的加快,AI的触角逐渐深入到各个场景,使人类的生产生活变得更加智慧化。在听觉方面,智能语音技术成为各大科技公司们攻坚的重要领域。

一家老牌科技巨头微软,在语音合成技术、语音识别技术上深耕多年,面向全球合作伙伴开放和落地其技术能力,提供多种智能语音解决方案。

5月中旬,在2020微软Build开发者大会上,微软上线了语音评测功能,该功能基于Azure语音服务Speech-to-text(语音转文本)构建。用户可以上传跟读文本和音频对发音人的语音从准确度,流利度和完整度进行评测。在教育领域,尤其是口语学习方面,因具有高识别准确率、拟专家打分的高一致性,可以让口语学习的教和学更加高效方便。

近日,微软亚太研发集团智能语音团队接受了雷锋网等媒体的线上采访,对微软智能语音评测技术的优势和应用场景等内容进行了详细介绍。

微软亚太研发集团云计算与人工智能事业部产品总监丁秉公、微软亚太研发集团云计算与人工智能事业部资深产品经理马莉莎参与了本次采访。

语音评测的四个维度

微软亚太研发集团云计算与人工智能事业部资深产品经理马莉莎表示,目前语音评测市场需求的考量方向主要有四个维度:

对于专业性,微软语音评测的每个语言从10万小时以上的母语大数据中学习当地语言纯正口音发音,针对各年龄段多维度精准打分,从文章——句子——词——音素四个环节,层层评估,拟专家团打分一致性高。

微软上线语音评测功能:基于Azure云构建,赋能口语学习的教与学

马莉莎提到,语音评测的专业性考量对比的是和母语专家评测的一致性。 业内通用皮尔森相关系数来反映两个序列线性相关程度的统计量。范围在-1到1之间,1表示完全相关,-1表示完全相反,0表示乱序无关,数值越大表示相关度越高。微软语音评测在一致性上达到了0.75,与母语专家水平接近。

对于实时性,微软语音评测支持音频上传流式处理,也就是边朗读边处理,读完立即反馈评估结果。

对于稳定性,微软语音评测基于NLP模型构建模糊匹配文本,针对垂直领域的特定场景的容错率有良好的包容性,漏读、错读、重复读不影响打分有效性与准确性。

对于可定制性,ASR基础模型与微软在语音领域的全面技术能力,可以实现个性化评分标准,可适配口音、适配噪音环境以及适配年龄层等。

据了解,微软语音评测除了支持英语评测外,还可扩展支持全球 40 多个国家和地区的语言评测,广泛适用于教育领域解决方案的合作伙伴、APP开发者以及语言学校、培训中心、教育机构、考试中心的各种语言学习、口语练习和考试等场景的开发。

最大的技术难点在于多点平衡

语音评测能力,在教育领域主要的受众人群包括老师、学生,通常被广泛应用于教师评估、作业练习和语言学习场景中。那么, 对于口语学习,教育用户的痛点是什么?语音评测最大的技术难点又是什么?

对此,马莉莎表示,对于学生来说,他们的痛点在于非母语口语学习。学生们在学习新语言的过程中,如何及时准确地给学生的发音进行反馈,让学生随时随地更方便地联系对于提升口语学习的有效性至关重要。

对于学校和教育机构来说,他们的痛点在于老师的资源有限,如何把现有的优质教师资源拓展到一个稳定的教学系统里。因此,老师需要这样一个能力,不仅能模拟母语专家打分,还能够学习到老师们的评测方法,让老师们可以使用评测高效地一对多给学生提供在线和线下的指导和帮助。

教育用户的这些痛点,对语音评测技术提出了更高的要求。马莉莎认为, 语音评测最大的技术难点在于语音识别技术本身,首先是多语言的理解和识别,不同的打分场景,包括噪声环境、不同年龄段学生的发音情况等都要进一步优化。

其次就是要达到包容性和鲁棒性(注:robust,技术术语,此处可理解为稳健性或抗变性)的平衡。 既要模型做得好、识别好,还要能够动态、实时构建,对大模型达到高实时地调用,而这些需求加起来就是难上加难了。

据悉,积极探索数字化转型和新教育模式的好未来,也是微软语音评测功能的客户之一。好未来AI科学家胡翔宇表示:

基于Azure云构建的一种能力:算法、数据、算力

微软亚太研发集团云计算与人工智能事业部产品总监丁秉公介绍, 一般来说,我们看AI技术主要看三个方面:算法、数据、算力。 从这三个方面来说,微软的语音评测功能有自己独特的优势。

实际上,微软语音评测不是一个具体的产品,而是基于Azure云构建的一种能力。即以微软Azure为平台,将微软在人工智能领域30年的研究成果,开放API给合作伙伴、独立软件开发商、系统集成商,为他们提供认知服务之上的能力,从而进一步做出适合各自领域的方案。

微软上线语音评测功能:基于Azure云构建,赋能口语学习的教与学

“可以打一个比方,如果微软云是平台的话,认知服务就是这个平台上提供给用户智能的部分。就好像一个人有眼睛、耳朵、头脑,认知服务就是赋予想要在微软Azure云上获取这些能力的用户,给他们提供扩展能力”,丁秉公说道。

据了解,目前,微软语音评测的API有丰富的接口和参数,支持高实时率多并发调用。如果第三方想调用API,在前期评测环节是免费的,而进入集成开发阶段,会根据标准的Speech-To-Text(语音转文本)服务的价格,按照评测音频的时长来计费。

另外,丁秉公还提到,微软Azure内部有独立的Microsoft Education团队,专门针对教育领域提供不同的解决方案。除了语音评测外,Azure云在教育领域还有很多已落地的应用。

马莉莎认为,当前全球的教育行业都在进行数字化转型,疫情的到来加速了教育行业的数字化和线上化。通过让AI和云计算进一步赋能教育行业,可以为学生提供多元化个性化的服务,打造一个更加智能的生态环境。

微软在智能语音技术方面深耕多年,曾推出过多款耳熟能详的语音产品,如微软小娜(Cortana)、微软小冰、Skype等,此次上线语音评测功能也是“顺水推舟”之举。语音评测市场,BAT和科大讯飞等科技巨头争相布局,微软这匹“黑马”的加入,势必会让语音评测战场的厮杀更为激烈。

原创文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/f8c3e14937b337b2f331.html
全局中部横幅
全局中部横幅
华军软件园

华军软件园提供国内外最新的绿色免费软件下载中心,其中包含电脑软件、苹果应用、安卓应用等免费电脑/手机软件下载。想了解绿色免费软件下载更多内容,尽在华军软件下载!

专业的数据中心运营商

核心主机网络有限公司成立于2013年,是一家经国家工业和信息化部批准的从事互联网数据中心业务、互联网接入服务业务、互联网内容分发业务、互联网域名解析服务业务、互联网资源协作服务业务、互联网信息服务业务、计算机系统集成及计算机软硬件开发得高新技术企业。

服务器笔记网

服务器笔记网fuwuqibiji.com提供阿里云、腾讯云、华为云等云服务器价格大全,最新的服务器优惠活动,以及全面的云服务器知识学习。

广州联华科智能科技有限公司

我司是自动化运动控制系统、单片机集成系统、嵌入式控制系统、仪表传感器类研发集生产型公司,产品:LED数码显示模组、自动焊锡机、点胶机、气模自动裁床控制系统、三轴/五轴全自动化点胶机运动控制系统、多轴全自动化拧螺丝机运动控制系统、四轴/五轴全自动化焊锡机运动控制系统、多轴全自动化贴标机运动控制系统等产品。

欢迎来到林频

林频厂家有专业的冷热冲击试验箱工艺生产流程,生产的产品系列有冷热冲击试验箱、冷热冲击实验箱、高低温冲击试验箱等产品,有需要可以咨询。

锂电池材料窑炉

广东中鹏新能科技有限公司集锂电池材料窑炉,锂电三元材料窑炉,锂电材料烧结窑炉,新能源锂电池材料窑炉,锂电材料窑炉设计一体的综合性企业,专业生产:锂电三元材料窑炉,锂电三元材料高烧结辊道窑炉,锂电池正极材料辊道窑炉,锂电正负极材料窑炉,锂电池材料烧成推板窑炉,锂电材料辊道窑炉,是国内规模生产新能源锂电池材料窑炉的品牌生产销售企业

活期宝

关联基金历史7日年化收益最高达2-6%

商客同城

江西省顺风车|求职招聘|房屋租售|二手车|生意转让|本地头条|同城吃喝玩乐-商客同城

监狱护栏网

安平县千图丝网制品有限公司专业生产制造:监狱护栏网,水库护栏网,保税区护栏网,机场护栏网厂家;咨询热线:15833843229

一加社区

一加手机官方论坛。一加手机开箱体验、测评报告、玩机技巧、手游攻略。与你分享美图及摄影技巧,众多大神教你轻松刷机,并由丰富手机资源任由下载。百万加油大家庭,交流更随心,一加社区官方论坛


全局底部横幅