2023大会共同主席 多模态技术获最佳奖项 IEEE MM 京东 深耕 Fellow 梅涛当选ACM (2023大会时间)

文章编号:43898 资讯动态 2024-12-09 梅涛京东探索研究院2021ACMMM

IEEE <a href=fellow 梅涛当选ACM MM 2023大会共同主席,京东“深耕”多模态技术获最佳奖项 | ACM MM 2021" src="http://www.gpxz.com/zdmsl_image/article/20241209161949_28663.jpg" loading="lazy">

日前,第29届ACM国际多媒体顶级会议(ACM International Conference on Multimedia, 简称ACM Multimedia)已于10月20日至24日在成都举办,京东探索研究院凭借跨模态分析技术、多模态交互数字人技术分别斩获最佳开源项目奖及最佳展示奖(Demo)。会上,IEEE Fellow、京东集团副总裁梅涛当选ACM Multimedia 2023大会共同主席(General Co-Chair)。

IEEE Fellow 梅涛当选ACM MM 2023大会共同主席,京东“深耕”多模态技术获最佳奖项 | ACM MM 2021

贡献:展示了一个完整的多模态数字人系统,包含语音模块、对话模块、视觉模块、驱动模块以及流模块等。

贡献:跨模态分析的多功能和高性能的代码库,统一了最先进的视觉语言技术中的全面的高质量模块。



关于X-modaler和ViDA-Man

过去十年多媒体领域视觉和语言之间的跨模态分析出现了稳定创新和突破的势头。然而,X-modaler出现之前,还没有一个开源的代码库来支持以统一和模块化的方式训练和部署众多的跨模态分析的神经网络模型。京东探索研究院AI团队模态视觉分析代码库X-modaler是业界首个模块化、标准化的跨模态视觉分析代码库,涵盖了视觉语言领域各种前沿技术,并支持各种多模态任务。它可以轻松复现视觉语言领域目前主流的技术,促进学术界在视觉语言领域的发展。同时也便于工业界集成跨模态视觉分析的模块,推动技术进步。

IEEE Fellow 梅涛当选ACM MM 2023大会共同主席,京东“深耕”多模态技术获最佳奖项 | ACM MM 2021

京东探索研究院跨模态视觉分析代码库X-modaler
系统化地集成了跨模态分析各大任务中最常用七大模块(如编码器模块、跨模态交互模块以及解码器模块等),每一个模块也包含了各种前沿技术算法,例如跨模态交互模块可以选择传统的Attention、Top-Down Attention、Meshed Memory Attention以及最新的X-Linear Attention。具体示意如下图:

IEEE Fellow 梅涛当选ACM MM 2023大会共同主席,京东“深耕”多模态技术获最佳奖项 | ACM MM 2021

基于这七大模块,X-modaler就可以轻松支持各种多模态任务,如image/video captioning、vision-language pre-training、VQA、VCR、cross-modal retrieval,同时也能很好地复现每个多模态任务中的前沿技术,例如在image captioning的任务中X-modaler集成了京东AI团队从ICCV17的LSTM-A、ECCV18的GCN-LSTM、再到CVPR20的X-LAN。目前代码库支持的算法如下图,后续将不断加入更多最新技术的实现,整个代码库包括使用文档以及预训练模型均已开源

IEEE Fellow 梅涛当选ACM MM 2023大会共同主席,京东“深耕”多模态技术获最佳奖项 | ACM MM 2021

在传统的AI认知中,视觉领域、语音领域、自然语言领域等领域之前是独立演进的技术和应用,可以认为是单模态技术,而人是一个看、听、说多模态共同工作的智能体,所以多模态技术是未来人工智能应用发展的方向。

京东探索研究院多模态交互数字人技术ViDA-Man致力于打造具备多感官交互能力的人机交互系统,深入多模态交互技术研究,专注于人机交互的消费科技产品打造。基于该技术开发的多模态交互数字人形象引擎,能够提供快速的形象定制能力,从外观的数字化逐渐深入到行为的交互化、情绪的智能化。

IEEE Fellow 梅涛当选ACM MM 2023大会共同主席,京东“深耕”多模态技术获最佳奖项 | ACM MM 2021

ViDA-Man致力于打造具备多感官交互能力的人机交互系统,深入多模态交互技术研究,专注于人机交互的消费科技产品打造。基于现有的人机对话技术,创新性研究类人风格的虚拟形象生成技术,深度融合计算机视觉、自然语言与语音等多项AI技术,结合泛文娱和智能客服场景,提供真人虚拟形象的新型拟人式交互新体验

获奖论文展示了一个完整的多模态数字人系统,包含语音模块、对话模块、视觉模块、驱动模块以及流模块等。先进的ASR技术与基于多音色融合的TTS技术使数字人具备了出色听以及说的能力;基于多技能、多回合的对话系统使数字人具备了多样性的应答能力。基于3D重构技术以及神经渲染技术的视觉模块使数字人具备了逼真的外表以及自然的动作。同时流式服务模块将音视频整合,让系统具备低延迟的实时交互能力。各模块并非独立运作,而是有机整合在一起,使得各模态数据真正实现融合。



京东为什么“看中”多模态技术

数字浪潮的推动让人工智能技术已经实现从不可用到可用,AI产品化时期,诸如智能语音识别技术、智能图片处理技术、基于用户兴趣的算法引擎推荐、智能审核技术、AR/VR技术、5G技术等成为了AI落地的抓手,掀起了科技创新的新浪潮。梅涛表示,获奖技术早已服务于京东云打造的虚拟数字人、拍照购、搭配购等多个产品,并开始在产业化、商业化项目中广泛应用。

例如,这些技术已大规模应用于正在如火如荼展开的京东11.11。如,基于计算机视觉以图搜图的搜索应用,辅助以语音对话交互技术的“拍照购”和“搭配购”功能已在刚刚拉开帷幕的京东11.11中大放异彩,通过拍照或截图方式,直接匹配搭配好的时尚单品,打造“一站加购”、“一键买齐”的购物新体验,帮助商家强种草、高转化。

今年京东11.11期间,针对商品营销内容推出的智能写作服务“达人写作”,形成一篇百余字商品文案仅需300毫秒,5分钟可以创作出1000篇文案,覆盖近3000个商品品类,累计生成3,000万AI内容,相比于人工撰写内容点击转化率超过40%,成本降低93.2%。

除京东内部应用之外,这些获得国际学术界顶尖荣誉的领先技术正在通过京东云这个统一平台输出对外赋能各行各业。比如,基于多模态交互数字人技术研发的“虚拟数字人”能助力京东云智能客服产品提升智能接待、服务和虚拟助手的体验。比如,京东云智能客服业务与某银行合作,打造了全国第一个交互式数字人项目“数字柜员”,有别于播报式数字人,“数字柜员”涉及VTM虚拟坐席交互,利用AI技术,实现用虚拟人替代真人柜员办理业务、把控风险。

IEEE Fellow 梅涛当选ACM MM 2023大会共同主席,京东“深耕”多模态技术获最佳奖项 | ACM MM 2021

可以看到,京东AI技术之所以能取得如此优异的成绩,是其在真实复杂场景的有效实践和千锤百炼。作为京东集团对外技术输出的窗口,京东云不仅是政府、企业、家庭数字化转型全生命周期合伙人,并基于人工智能、大数据、云计算、物联网、区块链、隐私计算等技术,通过数智化全链条技术服务,助力千行百业数字化转型,激发产业无限可能。



关于ACM Multimedia

ACM Multimedia是计算机科学领域中多媒体领域的首要国际会议,1993年以来每年召开一次,已成为多媒体领域顶级盛典,大会致力于推动多媒体的研究和应用。

ACM Multimedia 2009 曾在北京举办,ACM Multimedia 2021 是该会议第二次在中国举办。

IEEE Fellow 梅涛当选ACM MM 2023大会共同主席,京东“深耕”多模态技术获最佳奖项 | ACM MM 2021

版权文章,未经授权禁止转载。详情见 转载须知 。

IEEE Fellow 梅涛当选ACM MM 2023大会共同主席,京东“深耕”多模态技术获最佳奖项 | ACM MM 2021

全局中部横幅
新摄影

新摄影提供最新的数码相机资讯及在线摄影交流社区

天津云脉三六五科技有限公司官网

云脉三六五由一批拥有丰富经验的跨境电商精英与充满活力的互联网技术人员共同组建。我们的愿景是用IT技术服务十万跨境企业,百万跨境人。我们的使命是提升中国跨境人的国际竞争力,助力中国货,通全球。期待遇见有趣的你,与你一起做有价值有意义的事

树脂反应釜

无锡市鼎丰压力容器有限公司专业研发制造不饱和树脂反应釜,外盘管反应釜,酚醛树脂反应釜,外盘管不锈钢反应锅,外盘管蒸汽加热反应釜,电加热反应釜,低温双层玻璃釜等化工设备,鼎丰树脂反应釜品质上乘,价格低廉,耗能低,值得信赖,多种规格可选,欢迎来电咨询!

【TESOL中国总部官网】TESOL首页

TESOL国际英语教师资格证,美国教育协会权威机构颁发,全球通用,国际认可,成为国际英语教师的必要证明,TESOL中国总部,助您成为更优秀的英语教师。

你我网

你我网,缘自圈圈说,记载着圈圈的生活过往,只为留住那份曾经的感动;圈圈,自由职业/投机交易/互联网/销售/设计。没有立场,没有信仰,有时候教养也没有。

game8号网

game8号网是一个专为游戏方面整理相关知识、玩法的分享平台,竭力为广大玩家提供海量好玩游戏的游戏攻略、游戏资讯、游戏简评、游戏玩法等,game8号网一定是游戏玩家首选的网站。

临床试验电子数据采集系统

博思达biostdEDC由资深数据管理与EDC专家团队带领开发,拥有丰富的功能与至上的用户体验,不但针对复杂临床研究的数据采集与管理进行了一系列高端功能的开发,而且持续优化系统流程、简化操作步骤,协助客户提升整体临床试验效率。平台设计采用先进的架构,紧密结合临床试验的工作流程和业务需求,具有界面友好、操作简、功能强大等特点,给临床试验的管理工作带来极大的便利。

商客传媒

拼音团购,抖音生活服务商,抖音小程序,一站式多端合一SAAS小程序制作平台,轻松实现微信小程序,百度小程序,支付宝小程序,抖音小程序,头条小程序,QQ小程序,H5,PC站全端覆盖,平台数据全打通,助力商家轻松实现一站式运营

MRO工业品前沿采购平台

法拉第作为专业的MRO工业品采购平台,不仅提供各类优质的工业品,如工具、设备、零部件等,还时刻关注行业发展趋势。随着工业4.0的推进,MRO工业品采购正朝着数字化、智能化和供应链协同的方向发展。我们致力于为客户提供一站式采购服务,积极适应行业趋势,采用先进的技术和管理手段,提升采购效率,降低采购成本。

包头生物安全柜检测

内蒙古华诚高科检测科技有限公司是一家具有独立法人资格的第三方检测机构,具有国家计量认证CMA资质。公司可承担生物安全柜、洁净工作台、核酸(新冠)实验室、医用冰箱、冷库、冷藏车、保温箱、医用离心机、洁净室、手术室、药品食品GMP洁净环境的检测验收和相关技术咨询服务。联系电话: 13384862516。

全局底部横幅