微软研究新进展告诉你答案 会话转录可以实时进行 (微软新技术)

文章编号:42456 资讯动态 2024-12-04 微软 人工智能 会话转录 语音

雷锋网按:会话转录能够实时进行?而且还支持多人、远场语音转录?是的,这些新的转录功能都是微软研究所近期在口语处理上取得的新进展,雷锋网将其文章全文编译如下。

在强大的云计算基础设施和大量训练数据的支持下,深度学习算法如今已经成为了 AI 进化之旅的最重要驱动力。下面的几个任务是语音和语言社区里广泛使用的公开基准测试,在过去的三年里,微软首次在这些任务上取得了可以和人类相媲美的表现。

2017:语音识别:对话语音转录任务(总机)

2018:机器翻译:汉英新闻翻译任务(WMT17)

2019:对话问答:斯坦福会话问答任务 (CoQA)

这些突破对从翻译应用到智能扬声器的众多口语应用产生了深远的影响。虽然现在市面上已经有了智能音箱,但大多数智能音箱一次只能处理一个人的语音指令,并且在发出这样的指令之前,需要一个唤醒词。微软研究在Azure语音服务中加入了一些重大的技术突破,并提供了新的对话转录功能,该功能将在今天的预览版中提供。通过微软所引用的设备SDK (DDK),纯音频或视听麦克风阵列设备的可用性增强了这一功能。这是人工智能进化过程中的重要一步,因为几十年来,环境远场多人语音转录一直是科幻小说的主要内容。

新的会话转录功能扩展了微软现有的Azure语音服务,支持实时、多人、远场语音转录和说话人归因。与语音DDK相结合,会话转录可以有效地识别房间里一小群人的会话语音,并生成一个处理常见但具有挑战性的场景(如“串话”)的转录。

对于有兴趣尝试具有视频功能的端到端转录解决方案的客户,微软正在与部门客户和像Accenture、Avanade和Roobo这些的系统集成伙伴接洽,分别在美国和中国定制和整合对话转录解决方案。这种先进的能力类似于微软在去年的构建中首次展示的功能。感兴趣的企业可以向微软申请预览,体验由人工智能支持的对话转录是如何提高协作力和生产力的。

会话转录功能够利用多通道数据,包括来自代号为普林斯顿塔的语音DDK的音频和视觉信号。边缘设备是建立在微软参考设计的360度音频麦克风阵列或360度鱼眼摄像头的基础上的,通过视听融合来支持更好的转录。边缘设备将信号发送到Azure 云端进行神经信号处理和语音识别。纯音频麦克风阵列DDKs可以从购买。先进的视听麦克风阵列DDKs可从微软的系统集成合作伙伴处获得。

微软不断创新去超越传统的麦克风阵列和先进的视听麦克风阵列DDKs。今天,微软还公布了最新的研究进展(丹麦项目),该项目利用一组现有的设备,如配备普通麦克风的手机或笔记本电脑,动态创建虚拟麦克风阵列。虚拟麦克风阵列将现有设备(如手机或笔记本电脑)与普通麦克风(如乐高积木)动态地组合成一个更大的阵列。丹麦项目可以帮助微软的客户更容易地使用Azure语音服务,随时随地转录对话,无论有没有一个专门的麦克风阵列DDK。未来的应用程序场景是非常广泛的。例如,我们可以对多个微软翻译器应用进行配对,以帮助多人更有效地使用移动电话进行沟通,从而将语言障碍降到最低。可以在//Build Vision Keynote查看最新研究进展和展示。

会话转录可以实时进行?微软研究新进展告诉你答案

【 图片来源: Microsoft Research Blog 所有者:Microsoft Research Blog 】

最后,如果有像缩略语这样的专业词汇,准确的语音转录是非常困难的。为了解决这个问题,微软正在扩展Azure的自定义语音识别功能,并允许组织使用Office 365数据轻松地创建自定义语音模型。对于选择使用该服务的Office 365企业客户,Azure可以自动生成一个自定义模型,该模型利用Office 365中的联系人、电子邮件和文档等数据,以一种完全隔离、安全且兼容的方式进行操作,在组织特定的方言上提供了更准确的语音转录,如技术术语和人员姓名。对于有兴趣尝试这个新功能的客户,微软将为您的组织提供一个私人预览,让您从专用的和优化的语音服务中获益。

会话转录可以实时进行?微软研究新进展告诉你答案

【 图片来源: Microsoft Research Blog 所有者:Microsoft Research Blog 】

微软的Azure语音服务一直支持微软自己的M365解决方案以及许多使用相同统一语音平台的第三方客户。从Allstate到小米,都开始利用Azure语音服务来加速他们的数字化转型。 微软可以使用NLP技术进一步增强最终的自动会议记录和Azure会话转录,例如机器翻译、QA,去帮助客户实现更多目标。

雷锋网注:本文编译自Microsoft Research Blog

版权文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/dfaba319624f6e7ee9d5.html
全局中部横幅
全局中部横幅
新闻联播

《新闻联播》是中央广播电视总台每日晚间播出的一档新闻节目,被称为“中国政坛的风向标”,节目宗旨为“宣传党和政府的声音,传播天下大事”。

信手游下载站

信手游下载站专门为手游玩家们免费提供各种不同类型的手游资源下载,无论是最新上线的还是现在市面上非常火爆的手游在信手游下载站全都应有尽有,本站还贴心的为玩家们准备了多种类型的手游排行榜,绝对满足玩家们的不同喜好,想要快速下载绿色无毒免费手游,那就赶快收藏信手游下载站吧。

我就是要红

《我就是要红》是一款好玩的娱乐圈互动小说,免费文字avg,可以玩的视觉小说。本游戏的作者是【情商女王】。你原本只是个七八线小明星,却被暗害毁容。换脸隆胸不换心,抱着复仇的决心重回娱乐圈。逆袭的路上,冷漠的霸道总裁迅速让你搏出位,邪魅风流的投资人为你豪掷千金。你在这个名利被无限放大的修罗场,披着华丽的战袍,戴着奢华的皇冠,一步步走向属于你的王座,复仇恋爱两不误!

美迪系统

每天更新的电脑系统资讯,确保你的科技知识永远在最前线。

同城花牌

同城花牌,花牌,松滋花牌,双别杠,我爱花牌,口袋花牌,公安花牌

夹克管

河间市华宇保温建材有限公司主营:夹克管、聚氨酯瓦壳、直埋保温管、聚乙烯外护管、预制直埋保温管、聚氨酯管件保温、聚氨酯直埋保温管、钢套钢蒸汽保温管、玻璃钢聚氨酯保温管、聚氨酯镀锌铁皮保温管。公司成立于2007年,是一家国内专业生产、制造耐火保温隔音材料的大型骨干企业。该公司以“质优、诚信”为宗旨,瞄准国内外保温行业制高点追求先进、大胆革新,以企业良好的产品品质取得了业界骄人成绩,受到社会广泛关注。供特殊需求产品设计、制造,满足客户的个性化需要。

热台

上海绘统光学仪器厂是专业的生物显微镜,偏光显微镜,相称显微镜,金相显微镜供应商,主营产品有:生物显微镜,偏光显微镜,相称显微镜,金相显微镜等,上海绘统光学仪器厂不仅具有专业的技术水平,更有良好的售后服务和优质的解决方案,欢迎来电洽谈

西安楼承板厂家

陕西常松彩钢结构有限公司是一家专业生产钢筋桁架楼承板,彩钢板,复合板,楼承板,CZ型钢以及钢材,建材销售的公司.我们加工的产品型号齐全,主要用于钢结构厂房的外国围护和框架结构,先进的技术,精良的设备,严格的管理是公司得以不断发展壮大,产品能够赢得用户依靠的根本所在.欢迎新老顾客来电咨询,来我司浅谈合作!

在线图片压缩

图贴士(原GIF工具之家)在线图片压缩尺寸大小和视频转gif在线制作工具,支持JPG压缩、PNG压缩、GIF压缩等免费在线图片制作工具网。

万通亿游

万通亿游软件,成立于2015年,是国内专业的电子商务系统及服务提供商,为企业提供S2B2C商城系统、B2B2C多用户商城系统、B2B电商平台开发、网上商城开发、直播商城开发、微信小程序商城开发、APP商城开发、跨境电商/农村电商/生鲜电商/新零售等完善的电商解决方案,助力企业数字化转型升级,支持商城系统定制开发,源码交付,系统免费升级.

可可免费论文网

中国免费论文网包含免费论文、毕业论文、经济学、管理学、会计、法学、理学、医学、、社会学、教育、计算机、哲学、英语等各学科论文下载。提供专业的毕业论文指导、论文原创、论文写作、论文推荐服务。

襄学网

襄学网是专注于教育行业的三方代理招生专业平台,依托河南襄学信息科技有限公司的深厚行业积淀与资源整合能力,为全国各类正规培训机构、职业院校、学历提升院校及技能培训中心,提供高效、精准、低成本的招生解决方案,搭建起院校与学员之间的优质对接桥梁。凭借成熟的线上运营体系,整合搜索引擎推广、社交媒体矩阵、精准信息流投放等多元渠道,积累了覆盖学历提升、职业技能、考证培训、兴趣学习等多领域的庞大意向学员池,为合作院校提供稳定的生源来源.


全局底部横幅