依图科技入局语音赛道AI独角兽为何高调换轨 (依图科技规模)

文章编号:43757 资讯动态 2024-12-09 AI依图科大讯飞语音识别

眼下,行业巨头都在打造自己的智能语音生态系统,国外有IBM、微软、Google等,国内则有百度、阿里、科大讯飞、搜狗和云知声。

但这一次,四大AI独角兽之一的依图科技也正式拿到入场券了。

雷锋网12月11日消息,依图科技今日公布了其在中文语音识别技术上的最新突破,宣称在全球最大的中文开源数据库AISHELL-2中, 依图短语音听写的字错率(CER)仅为3.71% ,相比原业内领先者提升约20%,大幅 刷新现有纪录

此外,依图科技现场宣布了与 微软Azure和华为 的两大全新合作。

为何此时入局?

对于依图来说,从计算机视觉进入到语音识别,是一次巨大的跳跃,因为目前行业巨头林立,入局者比依图更早拿到市场份额。

依图科技入局语音赛道AI独角兽为何高调换轨?

但是依图首席创新官 吕昊 博士看来,现在的语音识别技术发展还是不够的,相较于人脸识别的准确率而言,语音识别发展目前都比较缓慢,无论是学术界还是工业界,对于语音市场都很看好,这意味着未来发挥空间十分巨大。

雷锋网也了解到,语音识别技术其实几十年前就在发展,从50年代的贝尔研究所到八九十年代美国和日本在该技术上的突破,从软件到硬件都在取得进展;我国语音识别研究起始于1958年,后来的“863计划”中语音识别成为重要课题,中国的语音识别技术开始进入了真正研究阶段。

但由于语音的场景复杂,技术突破一直处于缓慢的状态,目前应用较好的也只是特定的几个场景。目前业内一些机构已宣传识别技术达到了人类水平,但大多数情况下都来自安静、近场等受限环境下的结果。而复杂的场景诸如电话、语音节目、远场、混响、噪声、口音、语音节目等,则需要针对性地开发不同模型。

吕昊上任依图首席创新官近一年时间,去年年底,他辞去了在Google的工作,离开了生活十年的美国,回国加入依图。他觉得,在语音识别领域,依图科技是一名新生,但立志扮演创造行业拐点的角色。

可见,作为AI理解世界重要的组成部分,作为人人交互、人机交互最重要的入口,语音识别正在拉伸依图的AI版图。

尽管这次官方说法是“首次进入语音行业”,但实际上,依图一直都有涉猎这个领域, 语音和语义的相关技术之前在其医疗的相关产品中有过展示 ,只是没有公布。

吕昊坦言,科大讯飞做语音技术,的确是业内领先的,但是科大讯飞的语音有多好、和其他语音的距离有多远这些方面,其实很难界定——因为 不太透明 。准确率上,行业水平都是98%-99%,在什么情况下测的,大家也无法评判。

实际上,入局语音市场,还有个因素,吕昊也一并告诉了雷锋网。

联手巨头:有了华为和微软,语音市场的入场券拿的更快

这一次,选择新赛道,依图并非想做“孤胆英雄”。

因为华为、微软都选择和依图站在了一起。

发布会现场,依图宣布联合微软Azure推出依图语音开放平台,会向第三方开放,后续两家公司将在智能语音领域双方有新的动作。

此外,依图还联合华为发布“智能语音联合解决方案”,该方案基于依图语音开放平台及华为全栈全场景昇腾(Ascend)系列芯片和面向数据中心侧的Atlas 300 AI加速卡,也向第三方开放。

当下,AI产业链由基础层、技术层与应用层构成。同样,智能语音识别亦由这三层组成。基于大量数据的积累、深度神经网络模型的发展及算法的迭代优化,近年,语音识别准确率取得了不断的提升,外界也在各个巨头的测试结果中观察到了“媲美人类”、“与人相似”等字眼。

但语音识别领域一直存在两条红线: 3%和15%

依图科技入局语音赛道AI独角兽为何高调换轨?

一般认为,字错率在低于3%时不会影响文字可读性,而超过15%则毫无可读性,体验好感大大降低。在不同场景下,不同算法的表现可能会有很大差异。尤其是中文语音识别技术领域,汉语的博大精深带来的同音不同意等问题,更对语音识别的处理难度带来极大挑战,显著影响最终的使用体验。

会上,依图推出的中文语音识别算法,与业内原有领先者相比准确率大幅提升。

近期公开的AISHELL-2的三个测试子集,以及来自第三方的近场口音测试集、近场安静聊天测试集、语音节目测试集、电话测试集、远场测试集中,依图 字错率几乎全部在15%以下 (未过红线)。

雷锋网注:AISHELL-2是AISHELL Foundation和希尔贝壳宣布的开源数据库,数据规模达1000小时,是目前全球最大的中文开源数据库。它由1991名来自中国不同口音区域的发言人参与录制,经过专业语音校对人员转写标注,通过了严格质量检验,数据库文本正确率在96%以上。

值得一提的是,在AISHELL2-2018A-EVAL数据集中,依图的识别准确率高达96.29%,字错率(CER)仅为3.71%。

入局超百亿美元市场了,依图觉得自己“还年轻”

智能语音技术是人工智能应用最成熟的技术之一,并拥有交互的自然性,因而,其具有巨大的市场空间。

中国语音产业联盟《2015中国智能语音产业发展白皮书》数据显示,2017年全球智能语音产业规模将首次超过百亿美元,达到105亿美元。中国2017年智能语音产业规模也将首次突破百亿元,五年复合增长率超过60%。

此前,科大讯飞发布2018年Q3报告,前三季度实现营收52.83亿元,同比增长56%,主要由于持续加大AI相关领域的研发投入、生态体系构建的投入以及在教育、政法、医疗、智慧城市等重点赛道的市场布局投入。科大讯飞高级副总裁、研究院院长胡国平在公开场合表示,科大讯飞在语音识别错误率方面每年相对下降30%以上。

吕昊直言,从数据量、入局时间等角度来看,依图和BAT、科大讯飞等 相差很多量级 ,但是作为新秀,正是看到市场变动慢才觉得有机会,也是以这种发布会的形式让外界了解语音市场的真实现状。

对于语音开放平台发布之后的场景落地,吕昊表示,眼下依图并没有特别针对某个场景去发力,而是先推出普适性的语音开放平台, 走向通用化 ,方便外界调动API,在不同场景都能实现工作算法的修改和数据的搜集。

值得一提的是,依图在现场发布了“听写大会”微信小程序,让用户可以在不超过60秒时间内直观感受到语音识别技术的真实表现,在业界也属首次,公开透明的体验各类算法的水平差异。

语音识别技术近年进展

语音市场进入新玩家,异常火热,作为重度关注AI领域的雷锋网,也曾梳理了近年来语音识别技术发展基本轨迹:

当然,今天,我们需要记上一笔2018年12月11日依图的这次语音开放平台发布会。

站在AI的路口,依图科技又进一步了。

原创文章,未经授权禁止转载。详情见 转载须知 。

全局中部横幅
新闻

网址导航――RC0991.COM是最实用的上网导航网站,是方便网民上网的入口平台,及时收录包括网络电视、电景、音乐、视频、小说、游戏等热门分类的优秀网站,与搜索完美结合,提供最简单便捷的网上导航服务,是数千万网民的上网主页。

命名者

NAMERS命名者-上海品牌命名公司,中国一线品牌起名网,在科学品牌取名、产品起名、商标起名与品牌slogan设计方面有着独特的能力和经验,洞悉商业趋势,专业为国内外众多企业提供卓有成效的品牌命名策略和词语战略,为您塑造强大品牌基因。

上海3D打印快速样件

上海凌鹰模型有限公司主要业务有手板模型、3D打印、快速样件、硅胶复模等,在业内深受好评,拥有强大的设计团队和设备,欢迎来电咨询

墙板大师

墙板大师,商业空间速装板,重新定义墙面装饰,引爆行业新浪潮

姿美堂官网

姿美堂集团深耕大健康和新零售行业,聚焦纤体瘦身、口服美容、美妆等类目,通过科技和创新满足消费者新体验,从产品运营到消费者运营,构建多圈层、多元化、多渠道、多服务、多场景的新零售商业生态

宝德流量计

上海乾拓(www.qidong-sh.com)有宝德流量计|传感器,力士乐电磁阀,WAGO模块,派克柱塞泵,菲尼克斯继电器以及费斯托电磁阀等产品,型号齐全,更多系列品牌产品,欢迎进站咨询!

首页

高速石墨立式带锯床_高速石墨卧式带锯床_金刚砂环线锯切机

Decent

山东鼎信数字科技有限公司(Decent鼎信),成立于2010年,是国内领先的数字权益解决方案提供商,先后荣膺国家级高新技术企业、山东省瞪羚企业、山东省双软认证企业、山东省数字经济示范平台企业、ISO9001质量管理体系认证企业。Decent鼎信专注于数字产品的开发及运营,陆续打造橙券、小橙生活、橙票票、橙积分、车加加等核心品牌,为银行、保险、电商、运营商等行业客户提供开放高效的专业服务,助力传统行业数字化转型升级和价值落地。

单开开

单开开是一款销售开单APP,其主要功能销售开单、打印、商品入库、库存管理、数据统计、欠款记录等功能,软件工作界面简洁高效,功能模块化添加,商品参数可自定义,支持各行业不同商品使用,支持多种尺寸的热敏打印机和针式打印机进行打印。运行平台支持IOS、Android、Windows、鸿蒙系统。

屋顶风机

德州冠霖空调设备有限公司套产品、消防防火产品、T35轴流风机、壁式轴流风机、轴流式风机、正压送风机、低噪声轴流风机、消防排烟风机、混流风机、轴流风机、管道风机、风机箱、风口系列、消声器、静压箱、水箱、冷却塔、通风管道等。

3D云设计

活动秀场是一家通过“3D云设计”技术,为各大产业提供一站式活动服务平台,活动秀场以“3D云设计”为切入口,提供活动设计、3D场景营销、活动策划、品牌活动、活动搭建等解决方案和服务。活动秀场在活动、展会行业有十几年的服务经验,我们为产业提供赋能,助力产业实现“所见即所得”的愿景。

全局底部横幅