多种高难度乐器信手拈来! 就能完美复现音乐 MIT联合沃森实验室团队推出最新AI 只看手势动作 (多种高难度乐谱图片)

文章编号:46624 资讯动态 2024-12-10 AI生成音乐

会玩乐器的人在生活中简直自带光环!

不过,学会一门乐器也真的很难,多少人陷入过从入门到放弃的死循环。

但是,不会玩乐器,就真的不能演奏出好听的音乐了吗?

最近,麻省理工(MIT)联合沃森人工智能实验室(MIT-IBM Watson AI Lab)共同开发出了一款AI模型 Foley Music ,它可以根据演奏手势完美还原乐曲原声!

只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

而且还是不分乐器的那种,小提琴、钢琴、尤克里里、吉他,统统都可以。

只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

只要拿起乐器,就是一场专业演奏会!如果喜欢不同音调,还可以对音乐风格进行编辑,A调、F调、G调均可。

只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

这项名为《Foley Music:Learning to GenerateMusic from Videos》的技术论文已被ECCV2020收录。

接下来,我们看看AI模型是如何还原音乐的?

会玩多种乐器的Foley Music

如同为一段舞蹈配乐需要了解肢体动作、舞蹈风格一样,为乐器演奏者配乐,同样需要知道其手势、动作以及所用乐器。

如果给定一段演奏视频,AI会自动锁定目标对象的身体关键点(Body Keypoints),以及演奏的乐器和声音。

只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

身体关键点:由AI系统中的 视觉感知模块 visual Perception MODEL)来完成。它会通过身体姿势和手势的两项指标来反馈。一般身体会提取25个关2D点,手指提起21个2D点。

乐器声音提取:采用 音频表征模块 (Audio Representation Model),该模块研究人员提出了一种乐器数字化接口(Musical Instrument Digital Interface,简称MIDI)的音频表征形式。它是Foley Music区别于其他模型的关键。

研究人员介绍,对于一个6秒中的演奏视频,通常会生成大约500个MIDI事件,这些MIDI事件可以轻松导入到标准音乐合成器以生成音乐波形。

在完成信息提取和处理后,接下来, 视-听模块 (Visual-Audio Model)将整合所有信息并转化,生成最终相匹配的音乐。

我们先来看一下它完整架构图:主要由视觉编码,MIDI解码和MIDI波形图输出三个部分构成。

只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

视觉编码: 将视觉信息进行编码化处理,并传递给转换器MIDI解码器。从视频帧中提取关键坐标点,使用GCN(Graph-CNN)捕获人体动态随时间变化产生的潜在表示。

MIDI解码器: 通过Graph-Transfomers完成人体姿态特征和MIDI事件之间的相关性进行建模。Transfomers是基于编解码器的自回归生成模型,主要用于机器翻译。在这里,它可以根据人体特征准确的预测MIDI事件的序列。

MIDI输出: 使用标准音频合成器将MIDI事件转换为最终的波形。

实验结果

研究人员证实Foley Music远优于现有其他模型。在对比试验中,他们采用了三种数据集对Foley Music进行了训练,并选择了9中乐器,与其它GAN-based、SampleRNN和WaveNet三种模型进行了对比评估。

其中,数据集分别为AtinPiano、MUSIC及URMP,涵盖了超过11个类别的大约1000个高质量的音乐演奏视频。乐器则为风琴,贝斯,巴松管,大提琴,吉他,钢琴,大号,夏威夷四弦琴和小提琴,其视频长度均为6秒。以下为定量评估结果:

可见,Foley Music模型在贝斯(Bass)乐器演奏的预测性能最高达到了72%,而其他模型最高仅为8%。

只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

另外,从以下四个指标来看,结果更为突出:

只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来! 黄色为Foley Music模型,它在各项指标上的性能表现远远超过了其他模型,在正确性、噪音和同步性三项指标上最高均超过了0.6,其他最高不足0.4,且9种乐器均是如此。

另外,研究人员还发现,与其他基准系统相比,MIDI事件有助于改善声音质量,语义对齐和时间同步。

说明

另外,该模型的优势还在于它的可扩展性。MIDI表示是完全可解释和透明的,因此可以对预测的MIDI序列进行编辑,以生成A\G\F调不同风格音乐。如果使用波形或者频谱图作为音频表示形式的模型,这个功能是不可实现的。

只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

最后研究人员在论文中表明,此项研究通过人体关键点和MIDI表示很好地建立视觉和音乐信号之间的相关性,实现了音乐风格的可拓展性。为当前研究视频和音乐联系拓展出了一种更好的研究路径。

以下为Youtobe视频,一起来感受下AI音乐!

引用链接:

原创文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/4f0720f5312059e52bd2.html
全局中部横幅
全局中部横幅
乐艺ArtPage

数字图形(CG)艺术平台和内容孵化机构

奥比岛梦想国度

4399奥比岛:梦想国度安卓游戏为您提供奥比岛:梦想国度游戏下载,奥比岛:梦想国度安卓游戏攻略,奥比岛:梦想国度安卓免费游戏,更多奥比岛:梦想国度手机游戏下载尽在4399手机游戏。

聊城房产网

聊城房产网是聊城房地产、家居、二手房发布网络平台,提供全面及时的聊城房地产资讯,查询聊城楼盘,聊城房价走势及房源信息发布等功能

蘑菇物联

蘑菇物联是一家聚焦于公辅能源场景的工业AI科技公司,自主研发IoT智能硬件(蘑菇云盒、边缘智能服务器)、工业软件(IEM、IOM、云智控)、aPaaS云平台服务(蘑菇云)、工业AI大模型,为工业企业的通用工业设备及其组成的公辅车间(空压站、制冷站等)提供“数智化运维及数智化节能”两大类价值,实现空压站节能、空压机集中控制、空压机联控、节能管理、中央空调节能、动力能源车间节能,已成功应用于空压机、螺杆机、离心机、PLC工控、中央空调等工业设备行业,实现安全供能、无人值守、节能降碳/降本增效。

上海赛微思智业网络科技

赛微思智业·服务力私董会由服务力精神创立者翟勇老师创办,3000多私董会员10万多家企业见证,上海、南京、杭州、合肥、重庆、长沙、无锡、南通、扬州、常州、宜春等20多个分公司,打造著名私董会流程七步法,私董会排名,私董会活动,私人董事会、涉及金融、房地产、建材、家装、农业等行业!

麦芽地

麦芽地是专注于安卓游戏与应用下载的专业网站,汇聚海量热门手游、实用工具和精品应用。所有资源经严格筛选,安全无毒,每日更新,确保用户第一时间获取全新版本。智能推荐,精准匹配用户喜好,高速下载提升效率,简洁界面让资源获取更便捷,畅享全方位移动娱乐体验,是手机用户优选的优质应用下载网站。

提取浓缩器

宁波华子制药设备制造有限公司主营热回流提取浓缩器、IVD纯水设备、浓稀配液罐、制药用纯化水系统等产品,公司在制药、化工、生物、乳品、饮料、啤酒、水处理等领域有丰富的经验和实力。

企讯网

企讯网(114my.cn)企业信息资讯服务网站,朝阳企讯通旗下专业提供企业互联网一站式网络营销服务,为您提供全面的各行业最新资讯信息,找网络营销解决方案就上企讯网,咨询:400-612-0769。

江西古礼月信息技术有限公司

江西古礼月信息技术有限公司互联网安全信息安全网络安全江西古礼月信息技术有限公司,成立于2017年2月,是一家专注于网络安全技术服务、网络安全整体解决方案、软件开发等于一体的高科技创新企业。公司在职员工30余人,其中技术人员占一半以上(信息安全高级工程师10余人)。致力于打造成江西专业的网络安全公司,为用户提供24小时全方位的服务。为了更好地服务于客户,我司与国内多家知名安全厂商建立了长期良好的合作关系。本着以客户为中心,结合自身安全服务技术能力,整合各厂商优势产品,帮助客户解决网络安全相关问题。

体视显微镜

苏州瑞文光电科技有限公司主营“远心镜头,订制显微镜,工业变倍镜头,体视显微镜,视频显微镜,同轴光镜头”等产品,覆盖范围有“上海,江苏,浙江,昆山,苏州,广东,深圳,山东”等地区,产品受到广大用户信赖,欢迎来电咨询!

干冰清洗机

迪史洁(上海)清洗设备有限公司是集干冰清洗机、干冰清洗服务、干冰颗粒、雪花清洗机等产品专业生产加工为一体的干冰清洗机厂家,拥有完整、科学的质量管理体系。经过数年发展已经在干冰机研发、干冰制造、干冰销售、干冰清洗、干冰服务、雪花清洗、雪花清洗机等领域树立良好的口碑及影响力。咨询电话:400-602-1213

全国集装箱标准化技术委员会

CSTC全国集装箱标准化技术委员会

全局底部横幅