微软研究新进展告诉你答案 会话转录可以实时进行 (微软新技术)

文章编号:42456 资讯动态 2024-12-04 微软 人工智能 会话转录 语音

雷锋网按:会话转录能够实时进行?而且还支持多人、远场语音转录?是的,这些新的转录功能都是微软研究所近期在口语处理上取得的新进展,雷锋网将其文章全文编译如下。

在强大的云计算基础设施和大量训练数据的支持下,深度学习算法如今已经成为了 AI 进化之旅的最重要驱动力。下面的几个任务是语音和语言社区里广泛使用的公开基准测试,在过去的三年里,微软首次在这些任务上取得了可以和人类相媲美的表现。

2017:语音识别:对话语音转录任务(总机)

2018:机器翻译:汉英新闻翻译任务(WMT17)

2019:对话问答:斯坦福会话问答任务 (CoQA)

这些突破对从翻译应用到智能扬声器的众多口语应用产生了深远的影响。虽然现在市面上已经有了智能音箱,但大多数智能音箱一次只能处理一个人的语音指令,并且在发出这样的指令之前,需要一个唤醒词。微软研究在Azure语音服务中加入了一些重大的技术突破,并提供了新的对话转录功能,该功能将在今天的预览版中提供。通过微软所引用的设备SDK (DDK),纯音频或视听麦克风阵列设备的可用性增强了这一功能。这是人工智能进化过程中的重要一步,因为几十年来,环境远场多人语音转录一直是科幻小说的主要内容。

新的会话转录功能扩展了微软现有的Azure语音服务,支持实时、多人、远场语音转录和说话人归因。与语音DDK相结合,会话转录可以有效地识别房间里一小群人的会话语音,并生成一个处理常见但具有挑战性的场景(如“串话”)的转录。

对于有兴趣尝试具有视频功能的端到端转录解决方案的客户,微软正在与部门客户和像Accenture、Avanade和Roobo这些的系统集成伙伴接洽,分别在美国和中国定制和整合对话转录解决方案。这种先进的能力类似于微软在去年的构建中首次展示的功能。感兴趣的企业可以向微软申请预览,体验由人工智能支持的对话转录是如何提高协作力和生产力的。

会话转录功能够利用多通道数据,包括来自代号为普林斯顿塔的语音DDK的音频和视觉信号。边缘设备是建立在微软参考设计的360度音频麦克风阵列或360度鱼眼摄像头的基础上的,通过视听融合来支持更好的转录。边缘设备将信号发送到Azure 云端进行神经信号处理和语音识别。纯音频麦克风阵列DDKs可以从购买。先进的视听麦克风阵列DDKs可从微软的系统集成合作伙伴处获得。

微软不断创新去超越传统的麦克风阵列和先进的视听麦克风阵列DDKs。今天,微软还公布了最新的研究进展(丹麦项目),该项目利用一组现有的设备,如配备普通麦克风的手机或笔记本电脑,动态创建虚拟麦克风阵列。虚拟麦克风阵列将现有设备(如手机或笔记本电脑)与普通麦克风(如乐高积木)动态地组合成一个更大的阵列。丹麦项目可以帮助微软的客户更容易地使用Azure语音服务,随时随地转录对话,无论有没有一个专门的麦克风阵列DDK。未来的应用程序场景是非常广泛的。例如,我们可以对多个微软翻译器应用进行配对,以帮助多人更有效地使用移动电话进行沟通,从而将语言障碍降到最低。可以在//Build Vision Keynote查看最新研究进展和展示。

会话转录可以实时进行?微软研究新进展告诉你答案

【 图片来源: Microsoft Research Blog 所有者:Microsoft Research Blog 】

最后,如果有像缩略语这样的专业词汇,准确的语音转录是非常困难的。为了解决这个问题,微软正在扩展Azure的自定义语音识别功能,并允许组织使用Office 365数据轻松地创建自定义语音模型。对于选择使用该服务的Office 365企业客户,Azure可以自动生成一个自定义模型,该模型利用Office 365中的联系人、电子邮件和文档等数据,以一种完全隔离、安全且兼容的方式进行操作,在组织特定的方言上提供了更准确的语音转录,如技术术语和人员姓名。对于有兴趣尝试这个新功能的客户,微软将为您的组织提供一个私人预览,让您从专用的和优化的语音服务中获益。

会话转录可以实时进行?微软研究新进展告诉你答案

【 图片来源: Microsoft Research Blog 所有者:Microsoft Research Blog 】

微软的Azure语音服务一直支持微软自己的M365解决方案以及许多使用相同统一语音平台的第三方客户。从Allstate到小米,都开始利用Azure语音服务来加速他们的数字化转型。 微软可以使用NLP技术进一步增强最终的自动会议记录和Azure会话转录,例如机器翻译、QA,去帮助客户实现更多目标。

雷锋网注:本文编译自Microsoft Research Blog

版权文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/dfaba319624f6e7ee9d5.html
全局中部横幅
全局中部横幅
透水混凝土

里山龙是一家从事彩色混凝土、透水胶粘石、彩色沥青防滑塑胶路面的生态绿道全体系服务商。里山龙以快捷、准时、优惠的服务宗旨为广大客户服务!

标准网

标准网是免费的标准分享、下载网站,致力于中国各行业的标准化建设。所有标准文本全部免费下载,无需注册。国家标准,企业标准,行业标准,工程建设标准,地方标准,IEC标准,ISO标准。

公务员考试

【中公教育-公务员培训机构】提供2024国考、省考、事业编、教师、银行、考研、专升本等公告、时间、职位表、报名、成绩、试题、网校、笔试面试辅导及IT培训班等。

文库宝

文库宝是一个在线文档分享平台,可以上传实用范文,合同文书,求职简历模板,标准规范,PPT教案课件,学术论文,2024年工作总结,毕业论文等电子文档,在文库宝自由交换文档让创作被看到,让分享有价值。

旋转式除铁器

中智磁性机械有限公司专业生产:旋转式除铁器,抽屉式除铁器,高强力磁棒,悬挂除铁器,永磁除铁器,磁棒,磁滚筒,磁滚筒,除铁箱,除铁槽以及各种规格磁性材料等

振动传感器;声学照相机;声级计等

国产振动加速度传感器;进口声学相机;进口声级计;声校准器; 一种新型的声源定位设备,具备体积小,成本低,效果良好的特点。 SevenBel声场成像仪;NEWCORDER自主开发振动传感器

英才星有限公司

最新最全的企业介绍、行业新闻、招聘信息、招投标信息,海量资讯一网打尽

智造家

智造家是智能制造产业链的服务平台,为系统集成商、加工制造商、设备制造商、工厂维修部门等自动化企业提供企业信息化管理,依托“非标管家+图纸云+透明工厂”产品,助力企业转型升级,持续降本增效。

石家庄九奥电子科技有限公司

石家庄九奥电子科技有限公司是一家专业UPS电源、山特UPS、艾默生UPS电源、APCUPS、蓄电池销售、安装调试、售后服务工程公司。

山东防雷检测

本溪普天防雷检测有限公司山东分公司是一家从事防雷检测,工程检测,材料检测,建筑消防检测的公司,公司经山东省质量监督局批准授权的“CMA计量认证”和山东省气象局颁发的“雷电防护装置乙级资质证”具有向社会出具作用的数据和结果的第三方检测机构。欢迎您的来电咨询!

西安公墓网

西安公墓网是西安地区专业的集墓地选购、殡仪服务、殡葬用品为一体的综合服务平台。我们为家属提供透明、规范、高效的一站式服务。为市民提供购墓策划方案、免费专车上门接送、全程陪同讲解、购墓优惠、礼品赠送等。

全局底部横幅