窝牛号

Meta发布AIGC生成式人工智能模型来生成音乐与音效——AudioCraft

近年来,包括语言模型在内的生成式人工智能模型取得了巨大进步,特别是ChatGPT的发布,让大家看到了大语言模型的魅力。无论是计算机视觉,还是nlp领域的文本描述生成各种图像和视频,到执行机器翻译,文本生成等等大模型上,其都取得了令人意想不到的发展。但音乐与音频上似乎总是有点落后。是否可以使用人工智能技术来合成不同的音乐或者音效?

AudioCraft 包含三个模型:MusicGen、AudioGen和EnCodec。

MusicGen:使用 Meta 拥有且专门授权的音乐进行训练,根据用户输入的文本生成音乐。

AudioGen 使用公共音效进行训练,根据用户输入的文本生成音频音效。

EnCodec 解码器,它可以用更少的音损生成更高质量的音乐,类似音频压缩技术。EnCodec 是一种有损神经编解码器,经过专门训练,可以压缩任何类型的音频并以高保真度重建原始信号。

AudioCraft 系列模型能够产生具有长期一致性的高质量音频,并且可以通过UI界面轻松交互。通过 AudioCraft,简化了音频生成模型的整体设计,我们可以直接利用开源代码进行音乐的生成。

%cd /content !git clone https://github.com/facebookresearch/audiocraft %cd /content/audiocraft !pip install -r requirements.txt !python -m demos.musicgen_app --share

我们可以直接使用以上代码生成一个可视化的UI界面,我们只需要在输入框中,输入相应的文本,就可以利用模型生成音乐了。

为了方便开发者使用AudioCraft,模型已经开源,且我们可以直接使用开源的代码进行音乐的合成。

!python3 -m pip install -U git+https://github.com/facebookresearch/audiocraft39;medium&39;cuda&39;crazy EDM, heavy bang&39;classic reggae track with an electronic guitar solo&39;lofi slow bpm electro chill with organic samples&39;rock with saturated guitars, a heavy bass line and crazy drum break and fills.&39;earthy tones, environmentally conscious, ukulele-infused, harmonic, breezy, easygoing, organic instrumentation, gentle grooves&34;facebook/musicgen-small&34;facebook/musicgen-small&34;80s pop track with bassy drums and synth&34;90s rock song with loud guitars and heavy drums&34;pt&34;musicgen_out.wav", rate=sampling_rate, data=audio_values[0, 0].numpy())

生成好的音乐文件,我们可以使用以上函数进行播放或者进行存储,方便后期进行处理操作。当然以上的代码都是MusicGen音乐生成的代码实现,其他AudioGen和EnCodec的代码实现过程,可以参考GitHub源码。

https://github.com/facebookresearch/audiocraft

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除

窝牛号 wwww.93ysy.com   沪ICP备2021036305号-1