知识图谱 搜狗同传3.0 引入视觉能力 构建语境引擎 (知识图谱搜索功能)

文章编号:46591 资讯动态 2024-12-10 AI 知识图谱 同传

2019年,距李世石与AlphGO的“人机大战”已有三年,似乎没有人再怀疑,在“下棋”这件事儿上,人类确实已经输给了AI,人类与AI下一个较量会在哪里?

同传(同声传译)将很可能是下一个面临挑战的应用场景。

12月21日,基于语境引擎的搜狗同传3.0以多模态和自主学习为核心,加入视觉和思维能力,这是AI同传在加入诸如视觉AI、知识图谱等能力后的再度进化。

从人到机器:困于行业知识的AI同传,破局定制化难题

多模态同传,顾名思义,聚合多种交互形式实现同传的能力。

据雷锋网了解,搜狗在多模态领域的探索和应用早已有之,包括此前在AI合成主播上的应用,结合了语音、唇语、表情动作等交互形式,最终形成的AI合成主播参与了2019年全国的两会报道,甚至还走出国门,与阿布扎比媒体集团达成合作,将推出全球首个阿拉伯语AI合成主播。

为什么经过两代迭代后,搜狗会在同传系统中引入图像识别的能力?

这要从搜狗此前两代同传系统,以及此前对数千场会议的同传支持的痛苦经历上谈起。

2016年,搜狗在「第三届乌镇互联网大会」上发布了行业第一个商用AI同传产品——搜狗同传1.0。这是搜狗同传的第一代产品,同时也是搜狗进入同传这一领域的第一次商业尝试。

“1.0阶段我们提供的是通用的同传能力,在实际应用过程中遇到的最大的问题是:每一位讲者在演讲时的背景信息和语义信息不一样,可能今天我们需要支持医疗会议,明天需要支持航空会议,我们很难获取这类专业会议的‘语义词’。”

回看最初的搜狗同传1.0时,搜狗AI交互技术部总经理陈伟认为当时实际应用中遇到最大的问题是难以获取各专业领域的“语义词”,这也影响了最初这一产品的识别及翻译的准确度。

如何获取这些专业的“语义词”,以此来训练专用的模型,改进通用的1.0版本?

这是搜狗同传研发团队当时在进行版本迭代时主要考虑的问题,也是最终搜狗同传2.0试图去解决的问题。

这也就有了2018年发布的搜狗同传2.0的几点重要能力的升级:通过行业深度定制和专属模型训练(例如事先上传演讲稿或给出重点词汇进行训练),输出行业方案。

“在迭代到2.0版本后,我们一般会投很多人针对演讲者要讲的内容做优化,但是我们往往很难拿到演讲稿,所以只能在网上找与这个人相关的背景知识,以前讲过的内容,基于此做模型优化。”

尽管2.0版本考虑到了专业化内容的优化,但是在具体应用过程中,由于难以会前获取实际演讲者的演讲内容,并未能用这些专业内容进行定制模型优化。

其实在这样的升级迭代过程中,搜狗同传的通用能力从2016年的搜狗同传1.0到2018年搜狗同传2.0已经有了明显的提升,“但是就通用能力和个性化能力上,在嘉宾演讲的PPT内容的识别和翻译效果仍有较大提升空间,这是一定存在的。”

也因此,搜狗仍在继续优化个性化能力,也就是搜狗同传的定制化能力,“我们希望让机器自己定制一个好的语境。”

这样的能力最终在搜狗同传3.0上得以实现。

搜狗同传3.0:引入视觉能力+知识图谱,构建语境引擎

搜狗同传3.0:引入视觉能力、知识图谱,构建语境引擎

12月21日,基于语境引擎的搜狗同传3.0以多模态和自主学习为核心,加入视觉和思维能力,这是AI同传在加入诸如视觉AI、知识图谱等能力后的再度进化。

据陈伟介绍,搜狗同传3.0相对于上一代产品主要有三方面能力的提升:

“语境引擎能够真正做到对PPT内容的理解和推理,”陈伟点出搜狗同传3.0的核心能力所在。

具体搜狗同传3.0技术框图如下图所示:

搜狗同传3.0:引入视觉能力+知识图谱,构建语境引擎

从搜狗同传3.0技术框图中可以看到,语境引擎主要由「PPT文本理解」和「搜狗知识图谱」两部分组成。

语境引擎整个工作过程具体可以理解为:

这其中,搜狗还在同传系统中加入了识别翻译协同模块,对翻译模型的输入文本进行优化,这一模块的作用在两次迭代中也从最初、最基本的标点断句,逐渐升级为拥有标点断句、文本顺滑、语义单元三大能力。

在这个过程中,搜狗的机器翻译模块也从1.0系统的RNN模型、2.0系统的Transformer模型,升级为3.0多模态翻译系统,3.0系统是在Transformer模型基础上,将搜狗百科知识图谱和翻译历史融合到翻译系统中,并实现了流式解码。

据搜狗官方公布信息来看,通过构建语境引擎升级后的搜狗同传3.0系统的实测数据如下图所示:

搜狗同传3.0:引入视觉能力+知识图谱,构建语境引擎

这样现场识别PPT内容,结合搜狗百度百科知识图谱,构建语境引擎,是否对算力和硬件有特殊要求呢?

陈伟解释称,现场做PPT内容识别的时候可以直接通过截屏(本机播放PPT)或笔记本电脑上的摄像头来完成,语音训练用英伟达常规的P40或V100进行训练,训练推理方面没有额外增加负担。

AI同传尚难取代人类同传,多模态成趋势

引入视觉能力、加入知识图谱后的搜狗同传3.0,能够完全取代人类同传吗?

据搜狗官方在发布会上公布的信息显示:

在实际测评中,搜狗同传3.0的评测得分为3.82分,人工同传的评测得分为4.08分。

搜狗同传3.0:引入视觉能力+知识图谱,构建语境引擎

显然,就目前而言,AI同传还无法完全取代人类同传。

就此,陈伟也指出,

回归到语言本身时,各类传感器越来越多,设备能够收集到的数据及数据种类越来越多,亦即越来越多的多模态数据逐渐可以获得,当有了多模态数据后,相关模型和算法也逐渐开始受到业界所关注。

“但是大家一开始还是把多模态这件事想得太简单了,多模态的实现过程不是简单把模态融合在一起,从我们这些年在上面的认知来看,是一个蛮复杂的过程。”

当提到搜狗在多模态语音方面的技术发展,陈伟表示:

“我们是第一个在技术上主张多模态的公司,此次搜狗同传3.0也是从语音跨到了多模态,在这种多模态下将我们对于知识的理解、对语音的理解放进去,我们的同传就也开始具备一定的认知能力。”

“我们公司的终极目标是走向做VPA,即一个软件形态的AI助理,可能以硬件为载体,也可能放在搜狗输入法、搜狗的搜索引擎上。搜狗VPA的形态,是一个任务导向,中间会看到以对话为主的形象。同传这个场景下,我认为搜狗同传就是一种形态的VPA,是具备了同传能力的VPA,它可以与人做同传交互。”

原创文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/50477676b6c08dae9c76.html
全局中部横幅
全局中部横幅
百度PC排名

百度PC排名API数据接口根据域名和关键词返回百度PC关键词收录量、抓取时间、关键词排名(页数-第几条)、页面标题、页面链接地址。

彩之网首页

在线工具大全提供和收集各种简单方便的在线工具,无需注册和下载安装就能使用各种各样优秀的在线工具。

中文网站排行榜

爱站网为您提供中文网站排行榜,收集了国内各行各业排名的知名网站,按照百度爱好度、alexa等进行排名。爱站网中文网站排行榜是国内最专业、最权威的中文网站排行榜。

气象站

中科正奇(北京)科技有限公司专业从事防爆气象站,粉尘检测仪,气象站,扬尘监测系统,负氧离子监测系统,油烟监测系统等环保监测设备的生产研发和销售,详询4008-675-585征招全国代理

百思通古诗词网

古诗词是一种有特殊格式及韵律的文体,它以古体诗、近体诗为代表。按音律分,可分为古体诗和近体诗两类。按内容可分为叙事诗、抒情诗、送别诗、边塞诗、山水田园诗、怀古诗(咏史诗)、悼亡诗,咏物诗,军旅诗等。

绿色节能环保网

绿色节能环保网是绿色节能环保行业B2B电子商务平台、电子商务网站,是企业寻求节能环保设备的销售、采购、使用管理和节能环保设备技术服务的行业门户。

品牌设计

Actguidebrand领驱品牌设计(上海)有限公司(www.actguide.com),是一家极具前瞻性与实效性的品牌设计咨询机构,我们提供品牌设计、包装设计、标志设计、logo设计、vi设计、品牌咨询、品牌规划、品牌策划、营销策划、商业空间设计、产品创新服务。

伊津政电线电缆(上海)有限公司

伊津政电线电缆(上海)有限公司伊津政电线电缆(上海)有限公司-伊津政电线电缆(上海)有限公司是日本株式会社IZUMASA100%投资设立的外商独资企业,成立于2008年。我公司作为专业销售电线电缆的商社,与日本各大电线厂家间建立了良好的合作和信赖关系。我公司主要提供目前国内无法生产的日本及德国品牌的高端电线电缆产品伊津政电线电缆(上海)有限公司于2008年1月28日设立,是日本IZUMASA在中国100%出资的企业。总公司在日本大阪,已有75年的历史的电线电缆公司。我司是日本进口电缆代理商,主业务是日本进口机器人电缆/移动橡胶电缆、进口补偿导线,拖链电缆,UL认证电缆,PSE认证电缆,多连复合拖链电缆等代理。提供机器人线缆定制生产。大电ロボトップ机器人电缆起订量10米为单位切断销售;专业的日本工程师提供电线电缆的技术支持。伊津政电线电缆(上海)有限公司-伊津政电线电缆(上海)有限公司是日本株式会社IZUMASA100%投资设立的外商独资企业,成立于2008年。我公司作为专业销售电线电缆的商社,与日本各大电线厂家间建立了良好的合作和信赖关系

圣思模切

圣思模切|网纱模切|泡棉模切|双面胶模切|保护膜模切|导热材料模切|散热材料模切|导电屏蔽材料模切|其他材料模切|东莞市圣思电子有限公司

雨云

欢迎来到以用户体验为优先的雨云,我们提供稳定高速的国际虚拟主机,云服务器产品,强大的功能,高效率的客户支持,简洁易用的面板,值得您的信赖

工地网

  工地网为您免费提供大量建筑工程公司黄页、模型幕墙企业名录、园林景观企业联系电话、建筑设计公司大全、工业模型设计制作价格,同时您也可以免费发布花卉公司产品信息,查找建筑幕墙供应商联系方式、工程租赁公司联系电话,优质的工程企业信息就在工地网。

湖南蓝略品牌设计有限公司

品牌全案;区域公用品牌策划设计;农产品/食品/餐饮/酒店/服饰品牌服务


全局底部横幅