人声是一种经过微调的乐器。它的语气、节奏和变化有助于我们分享想法、交流需求和表达情感。
几十年来,计算机科学家一直试图模仿这些能力,让计算机听起来更“自然”。然而,尽管取得了令人难以置信的进步,人工语音仍难以与人声的质量相匹配。
当我们第一次开始使用WaveNet 时,大多数文本到语音系统都依赖于“连接合成”——一个将录音切割成语音并重新组合以形成新单词和句子的痛苦过程。
由此产生的声音通常听起来很机械,进行更改需要全新的录音——这是一个昂贵且耗时的过程。
WaveNet 解决了这些限制,提供了一种技术,最终使人们能够更自然地与他们使用的产品进行交互。
WaveNet 迅速从我们为理解智能所做的更广泛努力中的研究原型发展为全球数百万人使用的先进产品。它提供了我们相信人工智能可以为世界带来的广泛应用和好处的一瞥。”
WaveNet 来自我们团队对生成模型的研究,生成模型是一种 AI 系统,可以训练以创建感兴趣的数据集的新实例。
他们可以接受图像、视频或声音的训练,一旦接受训练,他们应该能够根据所学内容创建新的、真实的例子。
例如,如果我们在景观图数据集上训练一个生成模型,它应该学会创建数据集中没有的全新景观图像。
结果越准确,就越表明模型已经学习了数据集的底层结构,而不仅仅是简单地记住示例。
WaveNet 是一种在语音样本上训练的生成模型它通过预测哪些声音可能相互跟随来创建语音模式的波形。每个波形一次构建一个样本,每秒最多可生成 24,000 个声音样本。
由于该模型从人类语音中学习,WaveNet 会自动整合早期文本到语音系统中遗漏的自然声音元素,例如咂嘴和呼吸模式。
通过包含早期系统忽略的语调、口音、情感和其他重要交流层,WaveNet 为计算机生成的语音提供了丰富性和深度。
例如,当我们第一次引入 WaveNet 时,我们创建了美式英语和普通话语音,将人类和计算机生成的语音之间的差距缩小了 50%。
WaveNet 是一种通用技术,它使我们以及 Google 的团队能够解锁一系列新应用,从改善最弱连接上的视频通话到帮助失去说话能力的人恢复原始声音。 ”
WaveNet 的早期版本非常耗时,生成一秒钟的音频需要数小时。为了对消费产品有用,我们知道 WaveNet 需要运行得更快。
使用称为蒸馏的技术——将知识从大型模型转移到较小模型——我们重新设计了 WaveNet,使其运行速度比我们的研究原型快 1000 倍,在短短 50 毫秒内创建一秒钟的语音。
与此同时,我们还开发了WaveRNN——一种更简单、更快、计算效率更高的模型,可以在手机而不是数据中心上运行。
声音的力量在 2016 年的 I/O 开发者大会上,谷歌推出了一款人工智能虚拟助手,旨在实时回答问题和执行任务。
第二年,DeepMind与 Google 语音团队合作推出了WaveNet 作为 Google Assistant 的语音。
在改善美式英语和日语用户的体验后,WaveNet 推出,为数百万人通过智能家居和移动设备使用智能助理创建数十种不同语言的声音。
在另一个演示中,WaveNet 被用来重现两位名人的声音,他们在助手中扮演了客串角色。我们仅使用来自每个名人的几个小时的语音样本,整合了歌手 John Legend 和女演员 Issa Rae 的声音。
在最新的 Android 设备上,WaveRNN 现在还支持智能助理语音。
重获话语权患有渐进性神经系统疾病如 ALS(肌萎缩侧索硬化症)、帕金森氏症和多发性硬化症的人通常会失去对肌肉的控制,并最终失去说话的能力。
2014 年被诊断出患有 ALS,前 NFL 线卫蒂姆肖看着他的力量和声音都在恶化。为了提供帮助,Google AI、ALS 治疗研究所和Project Euphonia(一个应用 AI 来帮助患有非典型语言的人的 Google 计划)开发了一项服务,以更好地了解 Shaw 的语言障碍。
WaveRNN 与其他语音技术和之前录制的媒体采访数据集相结合,创建了一个听起来自然的 Shaw 声音版本,使他能够大声朗读一封写给年轻自己的信。
WaveNet 和 WaveRNN 现在是许多 Google 最知名服务(例如 Google 助理、地图和搜索)的重要组成部分。
而且,通过 Google Cloud,企业现在可以从 30 多种语言的数百种逼真的语音中进行选择,或者使用 WaveRNN服务从仅 30 分钟的语音中创建自定义语音,以改善客户服务和设备交互。
WaveNet 的扩展也有助于创造全新的产品体验例如,WaveNetEQ和Lyra帮助填补丢失的信息并提高谷歌视频通话应用程序 Duo在弱连接上的通话质量。
自 2016 年发表我们的研究以来,WaveNet 已经从一个研究概念转变为一个被全球数百万人使用的先进的现实世界系统。
使Tim Shaw 能够恢复因退行性疾病而失去声音的相同技术也有助于回答 Google 助理每天提出的 10 亿个查询中的一些问题。
它还具有帮助数百万人成功沟通、即时翻译多种语言、使用自定义音频内容扩展小型企业等的潜力。
WaveNet 每天都在帮助世界各地的人们消除沟通、文化和商业方面的障碍。而它的旅程才刚刚开始。
10 月,Google宣布我们最先进的语音合成模型WaveNet被用于为全球范围内的Google Assistant生成逼真的日语和美国英语语音。这种生产模型 - 称为并行 WaveNet - 比原始模型快 1000 倍以上,并且能够创建更高质量的音频。
原始的 WaveNet 模型使用自回归连接来一次合成一个样本的波形,每个新样本都以之前的样本为条件。虽然这会产生每秒高达 24,000 个样本的高质量音频,但这种顺序生成对于生产环境来说太慢了。
原始模型一次合成一个样本,每个样本都以先前的样本为条件,为了解决这个问题,我们需要一个解决方案,它可以一次生成长样本序列,并且不会降低质量。我们的解决方案称为概率密度蒸馏,我们使用经过充分训练的 WaveNet 模型来教授第二个“学生”网络,该网络更小、更并行,因此更适合现代计算硬件。这个学生网络是一个较小的扩张卷积神经网络,类似于原始的 WaveNet。但是,至关重要的是,每个样本的生成不依赖于任何先前生成的样本,这意味着我们可以同时生成第一个和最后一个单词 - 以及两者之间的所有单词,如下面的动画所示。
新的 WaveNet 模型使用白噪声作为输入并并行合成所有输出样本
在训练期间,学生网络以随机状态开始。它以随机白噪声作为输入,并负责产生连续的音频波形作为输出。然后将生成的波形馈送到经过训练的 WaveNet 模型,该模型对每个样本进行评分,为学生提供一个信号,以了解它离教师网络的期望值有多远。随着时间的推移,学生网络可以通过反向传播进行调整,以了解它应该产生什么声音。换句话说,教师和学生都为每个音频样值输出一个概率分布,训练的目标是最小化教师分布和学生分布之间的KL 散度。
训练方法与生成对抗网络 (GAN) 的设置相似,学生扮演生成器的角色,教师扮演鉴别器的角色。然而,与 GAN 不同的是,学生的目标不是“愚弄”老师,而是合作并尝试匹配老师的表现。
虽然训练技术效果很好,但我们还需要添加一些额外的损失函数来引导学生走向所需的行为。具体来说,我们添加了一个感知损失来避免糟糕的发音,一个对比损失来进一步减少噪音,以及一个功率损失来帮助匹配人类语音的能量。例如,如果没有后者,受过训练的模型会低声说话而不是大声说话。
将所有这些加在一起使我们能够训练并行 WaveNet 以实现与原始 WaveNet 相同的语音质量,如平均意见得分 (MOS) 所示 - 1-5 的等级,用于衡量语音听起来的自然程度根据对人类听众的测试。请注意,即使是人类语音在 MOS 量表上的评分也仅为 4.667。
当然,概率密度蒸馏的开发只是让 WaveNet 满足生产系统的速度和质量要求所需的步骤之一。将并行 WaveNet 合并到 Google Assistant 的服务管道中需要 DeepMind Applied 和 Google Speech 团队同样重要的工程努力。只有通过合作,我们才能在 12 个月多一点的时间里从基础研究转向 Google 规模的产品。
本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除
热门信息
阅读 ()
1 注册微信号怎么注册第二个阅读 ()
2 怎么把照片变成卡通头像阅读 ()
3 手机越充越少电怎么解决