窝牛号

Lyra:一种用于语音压缩的新型超低比特率编解码器

通过语音和视频通话在线连接到其他人已经越来越成为日常生活的一部分。使之成为可能的实时通信框架(如WebRTC)取决于有效的压缩技术编解码器,以对传输或存储的信号进行编码(或解码)。数十年来,编解码器是媒体应用程序的重要组成部分,它允许耗费大量带宽的应用程序有效地传输数据,并导致人们期望随时随地进行高质量的通信。

因此,开发用于视频和音频的编解码器时的持续挑战是提供更高的质量,使用更少的数据并最小化实时通信的延迟。尽管视频似乎比音频要占用更多的带宽,但是现代视频编解码器可以达到比当今使用的某些高质量语音编解码器更低的比特率。结合使用低比特率的视频和语音编解码器,即使在低带宽网络中也可以提供高质量的视频通话体验。然而,从历史上看,音频编解码器的比特率越低,语音信号的清晰度就越差,并且机械化程度也越高。此外,尽管有些人可以使用一致的高质量,高速网络,但是这种连接级别并不普遍,甚至在连接良好的地区的人有时也会遇到质量差,带宽低,

为了解决这个问题,我们创建了Lyra,这是一种高质量,低比特率的语音编解码器,即使在最慢的网络上也可以进行语音通信。为此,我们应用了传统编解码器技术,同时利用机器学习(ML)的先进性和对数千小时数据进行训练的模型来创建一种压缩和传输语音信号的新颖方法。

Lyra概述

Lyra编解码器的基本体系结构非常简单。每40毫秒从语音中提取特征或独特的语音属性,然后将其压缩以进行传输。特征本身是对数梅尔声谱图,代表不同频段语音能量的数字列表,由于它们是根据人类听觉响应建模的,因此传统上已将它们用于感知相关性。另一方面,生成模型使用这些功能来重新创建语音信号。从这个意义上讲,Lyra与其他传统的参数编解码器(例如MELP)非常相似。

但是,传统的参数编解码器仅从语音关键参数中提取出来,然后可用于在接收端重新创建信号,但比特率却很低,但听起来通常是自动的且不自然。这些缺点导致了新一代高质量音频生成模型的开发,该模型不仅能够区分信号,而且还能生成全新的信号,从而彻底改变了该领域。DeepMind的WaveNet是这些生成模型中的第一个,为许多模型铺平了道路。此外,目前在Duo中使用的WaveNetEQ(基于生成模型的丢包隐匿系统)已演示了该技术如何在实际场景中使用。

使用Lyra进行压缩的新方法我们以这些模型为基准,开发了一种能够使用最少的数据量重建语音的新模型。与当今大多数流媒体和通信平台中使用的最新波形编解码器相比,Lyra利用这些新的自然声音生成模型的功能来保持参数编解码器的低比特率,同时实现高质量。波形编解码器的缺点是,它们通过逐个信号压缩和发送来达到高质量,这需要更高的比特率,并且在大多数情况下,不需要获得自然的语音提示。

生成模型的一个关注点是它们的计算复杂性。Lyra通过使用更便宜的循环生成模型WaveRNN变体来避免此问题,该模型以较低的速率工作,但并行生成不同频率范围内的多个信号,随后将其组合为所需采样率的单个输出信号。这个技巧使Lyra不仅可以在云服务器上运行,而且可以在中端手机上实时运行在设备上(处理延迟为90ms,这与其他传统语音编解码器一致)。然后,该生成模型在数千小时的语音数据上进行训练,并类似于WaveNet进行优化,以准确地重新创建输入音频。

与现有编解码器的比较

自Lyra诞生以来,我们的任务一直是使用一部分替代比特率数据提供最优质的音频。当前,免版税的开源编解码器Opus是基于WebRTC的VOIP应用程序中使用最广泛的编解码器,并且音频速度为32kbps时,通常可以获得透明的语音质量,即与原始音频没有区别。但是,虽然Opus可以在带宽限制更小(最低6kbps)的环境中使用,但它开始表现出降低的音频质量。其他编解码器能够以与Lyra(Speex,MELP,AMR)相当的比特率进行操作,但是每个编解码器遭受的伪像增加,并导致机器人发出声音。

Lyra目前被设计为以3kbps的速度运行,并且收听测试表明,Lyra在该比特率下的性能优于任何其他编解码器,并且在8kbps的性能上优于Opus,从而使带宽减少了60%以上。Lyra可以在带宽条件不足以提供更高比特率且现有的低比特率编解码器无法提供足够质量的地方使用。

确保公平性

与任何基于ML的系统一样,必须对模型进行训练以确保其对每个人都适用。我们已经使用开源音频库为Lyra培训了数千小时的音频,并使用了70多种语言的扬声器,然后与专家和众包听众一起验证了音频质量。Lyra的设计目标之一是确保可普遍访问的高质量音频体验。Lyra会在广泛的数据集上进行训练,包括使用多种语言的说话者,以确保编解码器对可能遇到的任何情况都具有鲁棒性。

社会影响以及我们的发展方向无论是短期还是长期,Lyra等技术的影响都是深远的。借助Lyra,新兴市场中的数十亿用户可以访问高效的低比特率编解码器,从而使他们拥有比以往更高质量的音频。此外,Lyra可以在云环境中使用,使具有各种网络和设备功能的用户能够无缝地彼此聊天。将Lyra与新的视频压缩技术(例如AV1)配对后,即使通过56kbps拨号调制解调器连接到互联网的用户也可以进行视频聊天。

Duo已经使用ML来减少音频中断,并且目前正推出Lyra来提高超低带宽连接上的音频通话质量和可靠性。我们将继续研究Lyra的性能和质量,以确保该技术的最大可用性,并通过GPU和TPU进行加速研究。我们还开始研究这些技术如何导致低比特率的通用音频编解码器(即音乐和其他非语音用例)。

如下是Google的一个参考视频

视频一:原始视频

视频二:3kbps 效果

视频三:6kbps 效果

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除

窝牛号 wwww.93ysy.com   沪ICP备2021036305号-1