一、摘要
Spleeter 是一个用于音乐源分离的快速高效工具,它使用预训练模型。Spleeter 的设计考虑了易用性、分离性能和速度。该工具基于 Tensorflow,能够使用预训练模型通过单一命令行将音乐音频文件分离成多个音轨。一个音乐音频文件可以被分离成 2 个音轨(声乐和伴奏),4 个音轨(声乐、鼓、贝斯和其他)或 5 个音轨(声乐、鼓、贝斯、钢琴和其他)。
此外,用户还可以使用 Tensorflow 训练源分离模型或微调预训练模型(前提是你有孤立源的数据集)。预训练模型的性能非常接近已发布的最先进水平,并且是公开发布的在常见的musdb18 基准测试中表现最好的 4 个音轨分离模型之一。Spleeter 也非常快速,能够在单个 GPU 上使用预训练的 4 音轨模型,将混合音频文件分离成 4 个音轨的速度比实时快 100 倍(不过,需要注意的是,由于需要缓冲,该模型不能实时应用)。【2020年的文章】
二、方法
2.1 引言
Spleeter 的开发旨在帮助音乐信息检索(MIR)研究社区利用源分离技术来处理各种 MIR 任务,如从音频中分析声乐歌词、音乐转录、歌手识别、多标签分类、声乐旋律提取或封面检测等。Spleeter 还允许研究人员在私有数据集上比较他们新模型的性能与最先进的模型,而不是仅仅使用 musdb18 数据集。
2.2 方法
Spleeter 包含了用于声乐/伴奏分离、4 音轨分离(声乐、贝斯、鼓和其他)以及带有额外钢琴音轨的 5 音轨分离的预训练模型。这些预训练模型是 U-