基于Azure云构建 赋能口语学习的教与学 微软上线语音评测功能 (基于azure ad的sso)

文章编号:37974 资讯动态 2024-11-30 口语学习 微软 语音评测

近年来,随着人工智能技术的不断成熟,企业数字转型步伐的加快,AI的触角逐渐深入到各个场景,使人类的生产生活变得更加智慧化。在听觉方面,智能语音技术成为各大科技公司们攻坚的重要领域。

一家老牌科技巨头微软,在语音合成技术、语音识别技术上深耕多年,面向全球合作伙伴开放和落地其技术能力,提供多种智能语音解决方案。

5月中旬,在2020微软Build开发者大会上,微软上线了语音评测功能,该功能基于Azure语音服务Speech-to-text(语音转文本)构建。用户可以上传跟读文本和音频对发音人的语音从准确度,流利度和完整度进行评测。在教育领域,尤其是口语学习方面,因具有高识别准确率、拟专家打分的高一致性,可以让口语学习的教和学更加高效方便。

近日,微软亚太研发集团智能语音团队接受了雷锋网等媒体的线上采访,对微软智能语音评测技术的优势和应用场景等内容进行了详细介绍。

微软亚太研发集团云计算与人工智能事业部产品总监丁秉公、微软亚太研发集团云计算与人工智能事业部资深产品经理马莉莎参与了本次采访。

语音评测的四个维度

微软亚太研发集团云计算与人工智能事业部资深产品经理马莉莎表示,目前语音评测市场需求的考量方向主要有四个维度:

对于专业性,微软语音评测的每个语言从10万小时以上的母语大数据中学习当地语言纯正口音发音,针对各年龄段多维度精准打分,从文章——句子——词——音素四个环节,层层评估,拟专家团打分一致性高。

微软上线语音评测功能:基于Azure云构建,赋能口语学习的教与学

马莉莎提到,语音评测的专业性考量对比的是和母语专家评测的一致性。 业内通用皮尔森相关系数来反映两个序列线性相关程度的统计量。范围在-1到1之间,1表示完全相关,-1表示完全相反,0表示乱序无关,数值越大表示相关度越高。微软语音评测在一致性上达到了0.75,与母语专家水平接近。

对于实时性,微软语音评测支持音频上传流式处理,也就是边朗读边处理,读完立即反馈评估结果。

对于稳定性,微软语音评测基于NLP模型构建模糊匹配文本,针对垂直领域的特定场景的容错率有良好的包容性,漏读、错读、重复读不影响打分有效性与准确性。

对于可定制性,ASR基础模型与微软在语音领域的全面技术能力,可以实现个性化评分标准,可适配口音、适配噪音环境以及适配年龄层等。

据了解,微软语音评测除了支持英语评测外,还可扩展支持全球 40 多个国家和地区的语言评测,广泛适用于教育领域解决方案的合作伙伴、APP开发者以及语言学校、培训中心、教育机构、考试中心的各种语言学习、口语练习和考试等场景的开发。

最大的技术难点在于多点平衡

语音评测能力,在教育领域主要的受众人群包括老师、学生,通常被广泛应用于教师评估、作业练习和语言学习场景中。那么, 对于口语学习,教育用户的痛点是什么?语音评测最大的技术难点又是什么?

对此,马莉莎表示,对于学生来说,他们的痛点在于非母语口语学习。学生们在学习新语言的过程中,如何及时准确地给学生的发音进行反馈,让学生随时随地更方便地联系对于提升口语学习的有效性至关重要。

对于学校和教育机构来说,他们的痛点在于老师的资源有限,如何把现有的优质教师资源拓展到一个稳定的教学系统里。因此,老师需要这样一个能力,不仅能模拟母语专家打分,还能够学习到老师们的评测方法,让老师们可以使用评测高效地一对多给学生提供在线和线下的指导和帮助。

教育用户的这些痛点,对语音评测技术提出了更高的要求。马莉莎认为, 语音评测最大的技术难点在于语音识别技术本身,首先是多语言的理解和识别,不同的打分场景,包括噪声环境、不同年龄段学生的发音情况等都要进一步优化。

其次就是要达到包容性和鲁棒性(注:robust,技术术语,此处可理解为稳健性或抗变性)的平衡。 既要模型做得好、识别好,还要能够动态、实时构建,对大模型达到高实时地调用,而这些需求加起来就是难上加难了。

据悉,积极探索数字化转型和新教育模式的好未来,也是微软语音评测功能的客户之一。好未来AI科学家胡翔宇表示:

基于Azure云构建的一种能力:算法、数据、算力

微软亚太研发集团云计算与人工智能事业部产品总监丁秉公介绍, 一般来说,我们看AI技术主要看三个方面:算法、数据、算力。 从这三个方面来说,微软的语音评测功能有自己独特的优势。

实际上,微软语音评测不是一个具体的产品,而是基于Azure云构建的一种能力。即以微软Azure为平台,将微软在人工智能领域30年的研究成果,开放API给合作伙伴、独立软件开发商、系统集成商,为他们提供认知服务之上的能力,从而进一步做出适合各自领域的方案。

微软上线语音评测功能:基于Azure云构建,赋能口语学习的教与学

“可以打一个比方,如果微软云是平台的话,认知服务就是这个平台上提供给用户智能的部分。就好像一个人有眼睛、耳朵、头脑,认知服务就是赋予想要在微软Azure云上获取这些能力的用户,给他们提供扩展能力”,丁秉公说道。

据了解,目前,微软语音评测的API有丰富的接口和参数,支持高实时率多并发调用。如果第三方想调用API,在前期评测环节是免费的,而进入集成开发阶段,会根据标准的Speech-To-Text(语音转文本)服务的价格,按照评测音频的时长来计费。

另外,丁秉公还提到,微软Azure内部有独立的Microsoft Education团队,专门针对教育领域提供不同的解决方案。除了语音评测外,Azure云在教育领域还有很多已落地的应用。

马莉莎认为,当前全球的教育行业都在进行数字化转型,疫情的到来加速了教育行业的数字化和线上化。通过让AI和云计算进一步赋能教育行业,可以为学生提供多元化个性化的服务,打造一个更加智能的生态环境。

微软在智能语音技术方面深耕多年,曾推出过多款耳熟能详的语音产品,如微软小娜(Cortana)、微软小冰、Skype等,此次上线语音评测功能也是“顺水推舟”之举。语音评测市场,BAT和科大讯飞等科技巨头争相布局,微软这匹“黑马”的加入,势必会让语音评测战场的厮杀更为激烈。

原创文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/f8c3e14937b337b2f331.html
全局中部横幅
全局中部横幅
公司排行榜

公司排行榜根据过去一周中国公司各行业各地区公司市值、注册资金、行业指数、互联网指数、移动指数排名得出,反应了各行业各地区公司实力。

洛阳市福悦实业有限公司

洛阳市福悦实业有限公司(原洛阳市龙涛药业有限公司),位于偃师市工业园区,铁路、公路交通便利;厂区环境优美,大气含尘量低,为药品生产提供良好的自然环境。

抗磨液压油

嘉兴卓为润滑科技有限公司是一家集研制、生产、销售为一体的专业润滑油公司。公司生产的“洛基”牌润滑油系列产品具有较强的供给保障能力。产品覆盖汽车用油,工业用油,工程机械用油及各种专用油和脂类。

锂电池材料窑炉

广东中鹏新能科技有限公司集锂电池材料窑炉,锂电三元材料窑炉,锂电材料烧结窑炉,新能源锂电池材料窑炉,锂电材料窑炉设计一体的综合性企业,专业生产:锂电三元材料窑炉,锂电三元材料高烧结辊道窑炉,锂电池正极材料辊道窑炉,锂电正负极材料窑炉,锂电池材料烧成推板窑炉,锂电材料辊道窑炉,是国内规模生产新能源锂电池材料窑炉的品牌生产销售企业

贵州梦雨影文化传媒有限公司

贵州梦雨影文化传媒有限公司主要承接各类影视制作,包括电视专题片、摄影摄像、微电影、企业广告宣传短片等。我们的目标:为客户打造前所未有的震憾视觉;我们的理念:提交的首先感动自已的作品。

粘性热升华转印纸

江阴市全佳数码科技有限公司是一家专精于为环保包装产业可持续生态提供解决方案的专业化公司。目前主营产品有:粘性热升华转印纸、无塑纸、低克重热转印纸、热升华转印纸、高克重热转印纸、可降解无塑纸、无塑纸杯纸、无塑防水纸、环保无塑纸等。公司研发的纳米级水性涂料可替代纸张上的塑料膜层,达到塑料膜层的阻隔,可实现纸质包装的去塑化,使纸张可再浆,可回收,可降解,真正实现纸张再循环,解决原有生态中纸塑复合性产品无法回浆的特性,从而减少焚烧排放以及塑料回收压力,达到真正的去塑化和可循环经济发展理念的践行。

最好的黄金外汇开户平台

中国外汇网,十大黄金外汇排行榜平台,安全可靠的外汇平台!

画画

速写板suxieban.com是一款在线画画网站及画图工具,支持画画、画图、画思维导图、流程图、草图、图片生成、素材导入、SVG导出等功能,支持图片制作、SVG制作等。用户可通过画笔、喷漆、插入文字、图形库、素材库及功能菜单快捷高效的画画、画图、制作并分享精美的图片等。

全局底部横幅