多种高难度乐器信手拈来! 就能完美复现音乐 MIT联合沃森实验室团队推出最新AI 只看手势动作 (多种高难度乐谱图片)

文章编号:46624 资讯动态 2024-12-10 AI生成音乐

会玩乐器的人在生活中简直自带光环!

不过,学会一门乐器也真的很难,多少人陷入过从入门到放弃的死循环。

但是,不会玩乐器,就真的不能演奏出好听的音乐了吗?

最近,麻省理工(MIT)联合沃森人工智能实验室(MIT-IBM Watson AI Lab)共同开发出了一款AI模型 Foley Music ,它可以根据演奏手势完美还原乐曲原声!

只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

而且还是不分乐器的那种,小提琴、钢琴、尤克里里、吉他,统统都可以。

只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

只要拿起乐器,就是一场专业演奏会!如果喜欢不同音调,还可以对音乐风格进行编辑,A调、F调、G调均可。

只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

这项名为《Foley Music:Learning to GenerateMusic from Videos》的技术论文已被ECCV2020收录。

接下来,我们看看AI模型是如何还原音乐的?

会玩多种乐器的Foley Music

如同为一段舞蹈配乐需要了解肢体动作、舞蹈风格一样,为乐器演奏者配乐,同样需要知道其手势、动作以及所用乐器。

如果给定一段演奏视频,AI会自动锁定目标对象的身体关键点(Body Keypoints),以及演奏的乐器和声音。

只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

身体关键点:由AI系统中的 视觉感知模块 (Visual Perception Model)来完成。它会通过身体姿势和手势的两项指标来反馈。一般身体会提取25个关2D点,手指提起21个2D点。

乐器声音提取:采用 音频表征模块 Audio Representation Model),该模块研究人员提出了一种乐器数字化接口(Musical Instrument Digital Interface,简称MIDI)的音频表征形式。它是Foley Music区别于其他模型的关键。

研究人员介绍,对于一个6秒中的演奏视频,通常会生成大约500个MIDI事件,这些MIDI事件可以轻松导入到标准音乐合成器以生成音乐波形。

在完成信息提取和处理后,接下来, 视-听模块 (Visual-Audio Model)将整合所有信息并转化,生成最终相匹配的音乐。

我们先来看一下它完整架构图:主要由视觉编码,MIDI解码和MIDI波形图输出三个部分构成。

只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

视觉编码: 将视觉信息进行编码化处理,并传递给转换器MIDI解码器。从视频帧中提取关键坐标点,使用GCN(Graph-CNN)捕获人体动态随时间变化产生的潜在表示。

MIDI解码器: 通过Graph-Transfomers完成人体姿态特征和MIDI事件之间的相关性进行建模。Transfomers是基于编解码器的自回归生成模型,主要用于机器翻译。在这里,它可以根据人体特征准确的预测MIDI事件的序列。

MIDI输出: 使用标准音频合成器将MIDI事件转换为最终的波形。

实验结果

研究人员证实Foley Music远优于现有其他模型。在对比试验中,他们采用了三种数据集对Foley Music进行了训练,并选择了9中乐器,与其它GAN-based、SampleRNN和WaveNet三种模型进行了对比评估。

其中,数据集分别为AtinPiano、MUSIC及URMP,涵盖了超过11个类别的大约1000个高质量的音乐演奏视频。乐器则为风琴,贝斯,巴松管,大提琴,吉他,钢琴,大号,夏威夷四弦琴和小提琴,其视频长度均为6秒。以下为定量评估结果:

可见,Foley Music模型在贝斯(Bass)乐器演奏的预测性能最高达到了72%,而其他模型最高仅为8%。

只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

另外,从以下四个指标来看,结果更为突出:

只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来! 黄色为Foley Music模型,它在各项指标上的性能表现远远超过了其他模型,在正确性、噪音和同步性三项指标上最高均超过了0.6,其他最高不足0.4,且9种乐器均是如此。

另外,研究人员还发现,与其他基准系统相比,MIDI事件有助于改善声音质量,语义对齐和时间同步。

说明

另外,该模型的优势还在于它的可扩展性。MIDI表示是完全可解释和透明的,因此可以对预测的MIDI序列进行编辑,以生成A\G\F调不同风格音乐。如果使用波形或者频谱图作为音频表示形式的模型,这个功能是不可实现的。

只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

最后研究人员在论文中表明,此项研究通过人体关键点和MIDI表示很好地建立视觉和音乐信号之间的相关性,实现了音乐风格的可拓展性。为当前研究视频和音乐联系拓展出了一种更好的研究路径。

以下为Youtobe视频,一起来感受下AI音乐!

引用链接:

原创文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/4f0720f5312059e52bd2.html
全局中部横幅
全局中部横幅
登录入口

阿里邮箱个人版为用户提供高效稳定便捷的电子邮箱服务,免费注册邮箱送2G超大附件,60G容量,您可以在电脑网页、手机端注册、登录阿里邮箱个人版。

衢州马桶疏通

衢州及时修管道疏通水电维修专业从事衢州马桶疏通,衢州管道疏通,衢州水管维修,衢州水电改造,衢州水电维修,衢州洗菜盆疏通,衢州管道维修漏水,衢州灯具安装插座,衢州空调维修清洗等水电管道维修服务,欢迎您电话来电咨询详情。

医用自动洗肠机厂家/广东肠道水疗机多少钱/结肠水疗仪(机)效果/医用透析器复用机系统/透析器自动再处理机系统/佛山市康宇达医疗器械有限公司

康宇达医疗器械(400-886-8873)是一家专业产销优质医用洗肠机.肠道水疗机厂家,广东肠道水疗仪多少钱,结肠途径治疗机怎么样,结肠水疗仪复用机功能,结肠水疗仪复用机效果,医用透析器复用机系统,透析器复用系统系统等高新型医疗器械的民营科技企业,详情请来电咨询

不锈钢冷凝器

山东淄博千盛化工设备有限公司是专业的不锈钢冷凝器,冷凝器生产厂家,生产的不锈钢冷凝器、反应釜系列化工设备产品质量可靠,欢迎来电咨询:13853359538

网站安全

本站专注于网络攻击防御,提供多种防御策略,以及自研智防系统,能够帮助各大中小站长轻松防御各种网络攻击

翻译公司

全国免费咨询:400-895-6679。北京联合乐文翻译有限公司,多语种翻译公司第一品牌,二十年老店实体专业的翻译机构,[高效率]、[高质量]、[高保密],智能AI人工翻译平台,北京翻译公司,上海翻译公司,广州翻译公司,深圳翻译公司及青岛翻译公司均设有翻译公司。更专注于多语种多领域的同传租赁、笔译翻译、口译翻译、各类证件驾照翻译、视频听译、翻译标书、专业图纸翻译、字幕翻译、合同翻译、法律金融翻译、工业领域翻译、医疗医药翻译、等专业翻译服务及同声传译、同传设备租赁等专业服务提供商。

北京中阔律师事务所

北京中阔律师事务所是一家经北京市司法局批准,依法成立的综合性合伙制律师事务所。中阔律所位于北京CBD核心区阳光金融中心,拥有高端的服务场所、数字化的服务设施和现代化的服务环境。

青岛方大包装

青岛方大包装股份有限公司,是塑料印刷、复合软包装产品的专业生产厂家,本公司秉承“绿色、安全、精美”的生产管理理念,靠品质产品、个性化服务不断拓展国内外市场。0532-85399088

南宁网站建设

880元建企业网站,包售后,包空间,包域名。立足于广西,让全国中小微企业的网站都有效果,是我们的梦想。


全局底部横幅