将为TTS带来无数可能 DeepMind发布最新原始音频波形深度生成模型WaveNet

文章编号：46408 资讯动态 2024-12-10 WaveNet DeepMind

编者按：Google的DeepMind研究实验室昨天公布了其在语音合成领域的最新成果——WaveNet，一种原始音频波形深度生成模型，能够模仿人类的声音，生成的原始音频质量优于目前Google采用的两种最优文本-语音模型Parameric TTS与Concatenative TTS。

WaveNets是一种卷积神经网络，能够模拟任意一种人类声音，生成的语音听起来比现存的最优文本-语音系统更为自然，将模拟生成的语音与人类声音之间的差异降低了50%以上。

我们也将证明，同一种网络能够合成其他音频信号，如音乐，并能够自动生成沁人心脾的钢琴曲。

使人们能够与机器自由交谈是人机交互研究领域长久以来的梦想。过去几年中，深度神经网络的应用（如Google语音搜索）为提高计算机理解自然语音的能力带来了革新。但是，运用计算机生成语音——通常用于指代语音合成或文本-语音(TTS)系统——在极大程度上还要依托拼接TTS，TTS中包含一个超大型记录单个说话者的简短语音片段的数据库，随后将这些语音片段重新合成形成完整的话语。在不记录一个新的完整数据库的前提下，这种语音合成方法难以做到修饰声音（例如，转换到一个不同的说话者，或者改变其语音中强调的重点或传达的情感）。

为了解决语音合成的这一难题，迫切需要运用一种参数TTS,在这种文本-语音系统中，生成数据所需要的所有信息被存储于模型的参数中，语音所传达的内容及语音特征可以通过模型的输入信息得以控制。然而，目前参数（Parametric）TTS模型生成的语音听起来不如拼接（Concatenative）TTS模型生成的语音自然，这种现象至少出现在音节类语言中，如英语。现有的参数模型通常是运用信号加工算法vocoders计算获得的输出信息，以此生成音频信号。

WaveNet通过直接为音频信号的原始波形建模，一次为一种音频样本建模，来改变这种范式。同生成听起来更为自然的语音相同，使用原始波形意味着WaveNet能够为任意类型的音频建模，包括音乐。

DeepMind发布最新原始音频波形深度生成模型WaveNet，将为带来无数可能

研究者通常避免为原始音频建模，因为原始音频往往瞬间发生变化：通常情况下，每秒出现16,000种或更多音频样本，在很多时间标尺内出现重要的结构。很明显，构建一个完全自动回归模型是一项具有挑战性的任务，在这种模型中，对每一种音频样本的预测均受到之前所有音频样本的影响（用统计学方面的话来讲，每一种预测性分布是建立在所有先前观察的基础之上的）。

但是，我们今年公布的PixelRNN和PixelCNN模型显示，做到以每次一个像素，甚至于每次一个颜色通道的方式生成复杂的自然图像是可能的，这将要求对每个图像做数千次预测。这也启发我们将原有的二维PixelNets转变为一种一维WaveNet。

DeepMind发布最新原始音频波形深度生成模型WaveNet，将为带来无数可能

上方动画所示为一个WaveNet模型的内部结构，通常是一种完整的卷积神经网络，卷积层中有各种各样的扩张因子，允许其接受域深度成倍增长，并且覆盖数千个时间步长。

在训练时间段内，输入序列是从人类说话者记录得来的真实波形。在训练之后，我们可以对网络取样，以生成合成话语。在取样的每一个步骤中，将从由网络计算得出的概率分布中抽取数值。所抽取的数值随后被反馈到输入信息中，这样便完成下一步新预测。像这样每做一次预测就取样会增加计算成本，但是我们已经发现，这样的取样方法对于生成复杂且听起来真实的音频是至关重要的。

改善最优文本-语音转换模型

我们曾经运用Google的一些TTS数据集来训练WaveNet,以便用于评估WaveNet的性能。下图所示为与Google当前最优TTS系统（参数型TTS和拼接型TTS）和使用Mean Opinion Scores（MOS：用于评估语音通讯系统质量的方法）获得的人类语音相比，在标尺（1-5）上WaveNets的质量。MOS是一种用于主观语音质量测试的标准测定方法，在人群中进行盲试验。我们可以看到，WaveNets将最优模型生成语音的质量与人类自然语音（US英语和汉语普通话）之间的差距降低了50%以上。

就汉语和英语来讲，Google当前的TTS系统在世界范围内被认为是最优文本-语音系统，因此，用一种单一模型来改善生成汉语与英语语音质量将会是一项重大成就。

DeepMind发布最新原始音频波形深度生成模型WaveNet，将为带来无数可能

为了实现运用WaveNet将文本转化为语音，我们得告诉WaveNet文本的内容是什么。我们通过将文本转换成语言和语音特征（包括音位、音节、单词等），把转换得来的特征提供给WaveNet，完成这一过程。这意味着网络的预测步骤不仅仅基于先前获得的音频样本，而且要基于文本所传达的内容。

如果我们想要脱离文本序列来训练网络，网络依然能够生成语音，但是得自行编造想要传达的内容。这种条件下生成的音频简直是胡言乱语，有意义的单词被编造的像单词的声音隔断开。

注意，有时WaveNet也会生成一些非语音类型的声音，如呼吸或口腔运动；这反映出一种原始音频模型具有高度灵活性。

一个单一的WaveNet具备学习许多不同声音（男性和女性）的特征。为了确保WaveNet能够知道用何种声音匹配给定的任何一段话语，我们训练网络使之学习获得说话者的身份特征。有趣的是，我们发现，与单一训练单个说话者的特征相比，用许多说话者的语言、语音及身份等特征来训练网络使得WaveNet能够更好地模拟单个说话者，这种训练模式暗含着一种迁移学习形式。

通过改变说话者的身份，我们可以用WaveNet以不同的声音表达同一段话语。

同样，我们可以为该模型提供额外的输入信息，如情感或口音，使得生成的语音变得更为多样化，更有趣。

由于WaveNet能够用来模拟任何一种音频信号，我们认为,尝试用WaveNet生成音乐也将很好玩。与TTS实验不同，我们的网络不是基于一个输入序列，告诉它怎么演奏音乐（如一篇乐谱）；相反，我们只是简单地允许WaveNet任意生成一种音乐。当我们采用一个古典钢琴曲数据集来训练WaveNet时，它将生成一曲美妙乐章。

WaveNets将为TTS带来无数可能，大体上来讲，有生成音乐和模拟音频两类。事实上，直接运用深度神经网络一个时间步长一个时间步长地生成音乐，这种方法适用于所有16kHZ音频，这将是非常令人惊喜的。我们非常期待WaveNets未来将会带给大家的惊喜。

想要获取更多详细信息，请参考我们的论文详细

原文链接

原创文章，未经授权禁止转载。详情见转载须知。

DeepMind发布最新原始音频波形深度生成模型WaveNet，将为带来无数可能

本文地址： https://www.gpxz.com/article/013a361f4664f8adc615.html

上一篇：2019LeCun年的预测Yann年的里程碑以及AI201

下一篇：中国芯BAT谁是新希望AI芯片布局盘点中国芯

卡天地网

卡天地网致力于为广大用户提供专业的流量卡服务。电信流量卡，移动流量卡，联通流量卡和广电流量卡，提供最全选购指南！

手机软件 2026-01-21 10:59:26

新闻联播

《新闻联播》是中央广播电视总台每日晚间播出的一档新闻节目，被称为“中国政坛的风向标”，节目宗旨为“宣传党和政府的声音，传播天下大事”。

新闻资讯 2024-11-13 11:11:17

盘古网络集团有限公司

盘古网络是百度授权的区域服务运营商，是一家以百度业务为核心，为本地区客户提供整合网络营销服务，业务有百度推广，沈阳百度推广，沈阳百度代理，沈阳百度代理商，沈阳百度网络推广，沈阳百度宣传，沈阳网站推广，沈阳百度，沈阳盘古，并帮助他们获得了良好的营销效果。

网络应用 2026-01-24 21:02:29

蚂蚁淘生物

【每日特价秒杀】极简而严谨，我们仅销售188款生物医学科研用品，款款都是精品；因为少所以聚焦，聚焦甄选每一款产品，聚焦服务每一位客户!

商业服务 2026-01-25 18:25:44

Json在线格式化去除转义字符工具

淘宝优惠券,优惠券在线搜索,淘宝隐藏优惠券,淘宝客优惠券,优惠券查询,9.9包邮,白菜价,天天特价

搜索引擎 2026-01-25 20:43:42

铝合金铸造

无锡市明诺有色金属制造有限公司主要生产铝合金铸造,铝合金重力铸造,离心铸造,铜铸造,铝铸造,铝基轴承合金铸造,双金属铸造,巴氏合金铸件,铝青铜铜板,离心浇注钢套镶浇铜等产品。产品性能可靠，质量稳定，多年来受到国内外众多用户的好评。

电影视频 2026-01-25 23:52:44

医生在线官方网站

医生在线网提供陪诊、预约挂号、国内外肿瘤治疗、PETCT检查、质子重离子治疗、整形医院预约及三甲医院看病攻略指南。联合全国百家三甲医院打造高等医患、病友交流平台。医生在线网，您的私人医生，中国知名健康门户网站！

网站模板 2026-01-28 17:29:30

剑南春集团公司

四川剑南春(集团)有限责任公司,剑南春始于南齐,兴于盛唐,1500年匠心坚持,御酒始终如一.在唐代是皇室贵族钟爱的宫廷御酒,在现代是社会精英首选的中国名酒.

历史文化 2026-01-29 11:58:56

北京卫建职业技能鉴定中心010

010-53515286全国卫建职业技能鉴定中心涵盖全国各省市、各行业、各央企颁发的证书。如人力资源管理师、心理咨询师、物流师、维修电工、车工、秘书。

下载资源 2026-01-29 15:35:54

亿达科技

专注于供水行业管理信息化服务及应用软件开发，竭诚为客户提供适合的管理软件及专业优质的服务

网络应用 2025-01-30 23:17:59

广州金甲特种玻璃股份有限公司

广州金甲特种玻璃股份有限公司是一家集研发、生产、销售为一体专业性从事防弹玻璃、防爆玻璃、防砸玻璃、防爆炸玻璃、单向透视玻璃等特种玻璃产品现代化技术型创新企业。

企业品牌 2026-01-20 19:43:08

督社经验网

督社经验网分享生活经验知识，是您实用的生活科普指南。这里有千万网友实践过的解决方法，来解决现实生活中遇到的问题，从已发生的事件中获取经验知识，也可以将自己的经验进行分享。

生活常识 2025-03-05 16:52:15

为什么说激光雷达是无人驾驶汽车的眼睛 (什么是皮秒激光)

雷锋网按，各位小伙伴们周末好，本周照例与大家分享7篇深度好文，如果你对专栏的内容或形式有任何建议，请在下方评论区留言，专栏君将一一回复，无论你是乐于分享的极客，或是对科技圈的新闻事件有独到的见解的评论人，均可向我们投稿，专栏君的邮箱，gulei@leiphone.com，1、听说现在有个ARAPP很火，所以我也做了一个昨天在图书馆刷R...。

2024-12-09 22:58:09

联想与VMware开展多维度合作聚焦多云边缘计算等五方面 (联想与想象的区别)

消息，5月15日，联想宣布与VMware加强全方位合作，联合推动业务的持续发展，助力数字经济发展，其实联想和VMware的合作，最早要追溯到2008年，这一年联想与VMware开展了OEM的战略合作，就联合市场计划、联合销售、联合研发等进行了一系列紧密合作，2019年以来建立了长久的战略合作伙伴关系，2020年，双方积极响应，新...。

2024-12-09 22:34:32

突发！华为被曝今年或将重返 5G 手机市场；马斯克成立人工智能公司 xAI；王者荣耀游戏内下架宝格丽联名宣传页丨雷峰早报 (华为遭遇了什么情况)

今日头条华为有望年底重返5G手机市场7月12日，3家研究公司消息，华为正计划在今年底前重返5G智能手机行业，在美国销售禁令导致其消费电子业务严重受损后，华为将卷土重来，3家研究公司认为，华为应该能够利用自身在半导体设计工具方面的进步，以及中芯国际的晶片制造技术，在国内采购5G晶片，华为今年可能生产5G版旗舰机型P60，新机或于明年初推...。

2024-12-09 20:55:41

上半年汽车企出口量排名前十公布；山西拟2025年建成5G基站12万个；新型人工智能可预测蛋白质结构 (上半年汽车企业销量)

产业科技新闻广东银保监局，跨境理财通，即将正式出台国家粮食和物资储备局，7月下旬将投放第二批国家储备铜3万吨、铝9万吨、锌5万吨上海，推广氢燃料电池汽车逐步进入市场应用上海印发，上海市战略性新兴产业和先导产业发展，十四五，规划，规划提出，到2025年，上海新能源汽车制造业产值达到3500亿元左右，纯电动汽车和燃料电池汽车比重进一步...。

2024-12-04 01:07:10

灯泡4K家用投影还有市场吗 (灯泡该买多少瓦的)

发表在综合交流大区2019，1，1221，25激光光源现在已经褪去最初，青涩，的模样，现在正在一步步的发展壮大，逐步占领投影市场，激光光源壮大，必然会危及传统灯泡光源，但是纵观市面上的投影产品，灯泡机并没有呈现出隐退的趋势，反而不少采用4K分辨率的机器都采用的是灯泡光源，到底灯泡光源能不能在投影市场稳住一席之地呢，今天我们就跟随一台采...。

2024-11-28 22:53:49

投影仪成像是反射还是折射 (投影仪成像是反的怎么调过来)

发表在专业问答2023，12，2813，07展示机型信息，品牌型号，当贝X5Ultra系统版本，当贝OS4.0投影仪成像反射和折射都有，投影仪首先通过光路中的凸透镜让投影光发生折射，投射出大尺寸画面，接着通过光的反射让画面成像，投影仪成像是反射还是折射投影仪成像是既有折射，也会有反射，首先是投影光线是穿过光机内部的透镜，这时用到原理就...。

2024-11-28 20:12:45

极米H1S和H2对比该选哪款看完相信你就有答案了 (极米h1s和h3s对比)

极米H2与H1S哪一款更值得入手，极米推出的这两款产品外形差距不大，但还是有不少的消费者关心这两款投影的区别，话说这两款产品到底哪款适合你，且听我慢慢道来~~外观极米H1S和极米H2延续使用了荣获CES创新奖、iF设计奖、红点设计奖等多项大奖H1的经典外形设计，同时H2把之前的三个触控按键变为了物理按键，音量调节也升级为了左右滑动；镜...。

2024-11-28 17:49:49

一小天鹅网店被薅走7000万：有网友加价转卖订单，当地市场监管局介入|洗衣机

市监局回应小天鹅网店被薅走7000万

2024-09-03 14:07:03

东部战区瞄准两则模拟动画中台湾哪些中央 (东部战区时刻准备着)

撰文丨李岩5月23日，24日，东部战区组织兵力位台岛周边展开，联结利剑，2024A，演习，针对此次演习，5月24日，东部战区延续颁布两则模拟动画，政知君留意到，联结打击动画中，多波次导弹对台湾三个重点区域启动火力打击，画面中标识出了火力打击指标区分位于台北、花莲、高雄左近区域；战巡演练动画中，五个，十字准星，图示聚焦台湾重点区域，其中...。

2024-07-04 16:55:25

犯罪电影《哈里·布朗》解说文案/片源下载

犯罪电影《哈里·布朗》解说文案/片源下载这个老头在酒吧结账时不小心一沓钱从钱包里掉了出来一边的混混以为自己发财的机会来了他一路跟着老人直到来到了河边在黑暗处混突然冲了出来（把钱给我老头）（你他吗的聋了么）看到哈里没有反应似乎呆住了混混朝哈里的肚子一刀划下去但没想到的是竟然被哈利反杀了环顾四周...

2024-01-14 00:35:12

女人这样做，才能赚到钱

我身边有不少会搞钱的女性朋友但也有很多不会搞钱只知足于眼前的女性朋友跟会搞钱的女人在一起我们经常讨论的话题是这个月绩效如何绩效达标了没有什么好的项目可以分享项目遇到瓶颈该如何突破聊聊项目聊前景聊未来越聊兴致越高跟不会搞钱的女人在一起聊的往往都是家长里短谁谁谁老公又出轨啦谁最近又跟他婆婆吵架啦公司老板多抠门同事又如何给他...

2024-01-08 04:46:36

飞行，飞行如何，什么飞行，哪些飞行，怎么飞行

2023-11-03 03:43:35

文章推荐

比特币跌幅达40% 部分比特币交易网站银行账户将被封 (比特币跌幅达1%的原因)

比特币交易网4月10日发布公告称已经收到农行工行的口头通知，将于4月15日停止使用公司账户进行比特币相关业务的结算，这无疑给在翘首以盼央行撤销禁令的比特币玩家们浇了一盆冷水，亦真亦假的消息自传播以来，比特币已经从原来的4000多跌到了现在的2000多，今天早上比特币还在持续下跌，最低2200，可到了中午刚刚央行行长周小川就说了这么一句...。

2025-02-02 01:58:42

资讯动态

阿里云联合研究成果在国际顶刊 Cell 中山大学 AI发现超16万种RNA病毒发表 (阿里云联合体)

10月10日消息，国际顶级学术期刊，Cell，发表了中山大学与阿里云合作的科研成果，研究团队利用云计算与AI技术发现了180个超群、16万余种全新RNA病毒，是已知病毒种类的近30倍，大幅提升了业界对RNA病毒多样性和病毒演化历史的认知，Cell，是国际公认学术声誉最高的期刊，代表生命科学领域的最高水平，国内每年入选，Cell，的论...。

2024-12-09 16:15:22

资讯动态

notability怎样合并笔记 (notability)

notability怎样合并笔记，notability软件里的笔记是可以进行合并的，有很多的小伙伴都在下载这款软件使用，那么具体的应该怎样合并笔记呢，还不清楚的用户朋友们就一起来看看吧！...。

2024-12-01 23:51:44

技术教程

投影仪亮度新标准即将发布行业亮度乱象问题将解决 (投影仪亮度新的怎么调)

发表在行业动态2023，3，119，402月16日，中国电子视像行业协会在北京线下召开了针对，投影机光输出技术要求和测试方法，团体标准编制工作的最后一次讨论会议，极米、当贝、坚果、峰米、小米、海信、BOE、橙子科技、知麻、瑞格尔、轰天炮、安华光电等十余家企业代表以及平台商京东、天猫出席了本次会议，经过各与会专家热烈地探讨和交流后，，投...。

2024-11-28 14:19:18

网络百科

北京倡议链发出维护供应链稳定的中国声音环环相！

11月26日，第二届链博会发布了两项重要成果，一份是2024版，全球供应链促进报告，，一份是，产业链供应链国际合作北京倡议，我们先看，全球供应链促进报告，尽管当前全球化遭遇逆流，，脱钩，断链，等，杂音，不断，但研究显示，2018年到2023年，全球供应链促进指数从0.27上升到0.66，这说明全球供应链连接依然是大势所趋，人心所...。

2024-11-28 11:02:57

资讯动态

将为TTS带来无数可能 DeepMind发布最新原始音频波形深度生成模型WaveNet

改善最优文本-语音转换模型

相关文章

文章推荐