窝牛号

Facebook发布XLS-R:128 种语言的自监督语音处理模型

相互交谈是人们互动的一种自然方式,随着语音技术的发展,人们可以与Facebook的设备互动——以及未来虚拟体验与Facebook的物理世界融合的虚拟世界。

然而,语音技术仅适用于全世界使用的数千种语言中的一小部分。小样本学习,基于有限的标记数据,甚至无监督语音识别是有帮助的,但这些方法的成功取决于自监督模型的质量。

今天,Facebook发布了 XLS-R,这是一种用于各种语音任务的新型自监督模型。XLS-R 通过以两倍多的语言对近 10 倍的公共数据进行训练,大大改进了以前的多语言模型。

为了实现能够理解多种不同语言语音的单一模型的目标,Facebook对 XLS-R 进行了微调,以执行语音识别、语音翻译和语言识别,在各种基准上树立了新的艺术状态:用于语音识别的 BABEL、CommonVoice 和 VoxPopuli;CoVoST-2 关于外文到英文的翻译;以及使用 VoxLingua107 进行语言识别。

为了使这一进步尽可能广泛地获得,Facebook发布了这些模型,并在Facebook的网站上提供它们的代码

XLS-R 的工作原理

XLS-R 接受了超过 436,000 小时的公开演讲录音训练,基于 wav2vec 2.0,Facebook的语音表征自监督学习方法。这比Facebook去年发布的最好的先前模型多近 10 倍,XLSR-53. 利用来自不同来源的语音数据,范围从议会程序,对于有声读物,Facebook已扩展到 128 种不同的语言,涵盖的语言数量是其前身的近两倍半。

Facebook发现Facebook最大的模型包含超过 20 亿个参数,其性能比较小的模型好得多,因为更多的参数对于充分代表Facebook数据集中的多种语言至关重要。Facebook还发现,与在单一语言上进行预训练相比,更大的模型尺寸能更好地提高性能。

Facebook在四个主要的多语言语音识别基准上评估了 XLS-R,在测试的 37 种语言中,它的表现优于先前的工作;具体来说,Facebook在 BABEL 的 5 种语言、CommonVoice 的 10 种语言、MLS 的 8 种语言和 VoxPopuli 的 14 种语言上进行了尝试。

BABEL 语言在单词错误率方面的准确性。XLS-R 导致对先前工作的显着改进。

Facebook还评估了Facebook的语音翻译模型,Facebook直接将录音翻译成另一种语言。由于Facebook对可以执行多项任务的模型感兴趣,因此Facebook同时在 CoVoST-2 基准测试的几个不同翻译方向上对 XLS-R 进行了微调。结果是一个可以在英语和多达 21 种其他语言之间进行翻译的模型。

当Facebook使用 XLS-R 对英语以外的语言进行编码时,Facebook看到了显着的改进,这是多语言语音表示尤其重要的地方。Facebook的模型在低资源语言方向上带来了非常大的改进,例如印尼语到英语的翻译,其中 BLEU 的准确率平均翻了一番——这是在改进口语翻译方面向前迈出的一大步。BLEU 指标的增加意味着自动翻译与处理相同任务的人工生成的翻译有更多重叠。

就 BLEU 而言的自动语音翻译准确性,其中较高的值表示从高资源语言(例如法语、德语)、中等资源语言(例如俄语、葡萄牙语)或低资源语言的语音记录翻译成英语时的准确性更高资源语言(例如,泰米尔语、土耳其语)。

走向单一模型以理解所有人类语言

XLS-R 表明,扩展跨语言预训练可以进一步提高低资源语言的性能。它提高了语音识别的性能,并将外语到英语的语音翻译的准确性提高了一倍以上。XLS-R 是朝着能够理解多种不同语言的语音的单一模型迈出的重要一步,它是Facebook所知道的利用公共数据进行多语言预训练的最大努力。

Facebook相信这个方向将使机器学习应用程序能够更好地理解所有人类语音并促进进一步研究,使语音技术在全球范围内更容易使用,尤其是在服务欠缺的人群中。Facebook将通过开发新方法来从较少的监督中学习并将Facebook的方法扩展到全球 7,000 多种语言,从而继续改进Facebook的算法。代码已经开源,可以到Facebook官网了解详情。

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除

窝牛号 wwww.93ysy.com   沪ICP备2021036305号-1