Meta的MusicGen可以根据文本提示生成短小的新音乐片段,并可选择与现有旋律对齐。

与今天的大多数语言模型一样,MusicGen 基于 Transformer 模型。就像语言模型预测句子中的下一个字符一样,MusicGen 预测音乐作品中的下一个部分。

研究人员使用 Meta 的 EnCodec 音频标记器将音频数据分解为较小的组件。作为一个单阶段模型,它可以并行处理标记,因此 MusicGen 速度快且高效。

该团队使用了 20,000 小时的授权音乐进行训练。特别的是,他们依赖于一组内部的 10,000 首高质量音乐曲目的数据集,以及来自 Shutterstock 和 Pond5 的音乐数据。

MusicGen 可以处理文本和音乐提示

除了架构的效率和生成速度外,MusicGen 在能够处理文本和音乐提示方面也是独特的。文本设置了基本风格,然后与音频文件中的旋律匹配。

例如,如果将文本提示「一个轻快愉快的 EDM 音轨,带有交响鼓、轻柔垫音和强烈情感,速度:130 BPM」与巴赫著名作品《降 D 小调的触技曲与赋格曲(BWV 565)》的旋律结合起来,将生成以下音乐作品:

你无法精确控制与旋律的结合,例如在不同风格中听到旋律。它只作为生成的大致指南,并不完全反映在输出中。

MusicGen 领先于Google 的 MusicLM

研究的作者对其模型的三个不同大小进行了测试:3 亿(300M)、15 亿(1.5B)和 33 亿(3.3B)个参数。他们发现更大的模型生成的音频质量更高,但人们评价最好的是 15 亿参数模型。另一方面,33 亿参数模型更擅长准确匹配文本输入和音频输出。

与其他音乐模型(如 Riffusion、Mousai、MusicLM 和 Noise2Music)相比,MusicGen 在客观和主观指标上表现更好,这些指标测试音乐与歌词的匹配程度以及作曲的可信度。总体而言,这些模型略高于Google 的 MusicLM 水平。

Meta 已在 Github 上发布了代码和模型的开源版本,并允许商业使用。在 Huggingface 上提供了演示

Github 代码和模型:https://github.com/facebookresearch/audiocraft

Huggingface演示:https://huggingface.co/spaces/facebook/MusicGen