stable-audio-metrics:音频生成模型评估利器
项目介绍
stable-audio-metrics
是一个开源项目,旨在为音乐和音频生成模型提供一系列评价指标。这些指标包括 Fréchet 距离、Kullback-Leibler 散度以及 CLAP 分数,它们分别基于 Openl3、PaSST 和 CLAP-LAION 等知名技术。这些指标经过优化,以适应长形式全频带立体声生成的实际应用场景,并能够处理可变长度的输入。
项目技术分析
stable-audio-metrics
的核心功能是提供三种评价指标:
- Fréchet 距离:基于 Openl3,适用于 48kHz 的音频。
- Kullback-Leibler 散度:基于 PaSST,适用于 32kHz 的音频。
- CLAP 分数:基于 CLAP-LAION,适用于 48kHz 的音频。
这些指标旨在评估音频生成模型的质量,尤其是针对长形式的音频生成。项目采用了 GPU 加速,以提高计算效率。
安装
安装 stable-audio-metrics
需要先克隆仓库,然后创建一个 Python 虚拟环境,并激活它。接下来,通过 pip
安装项目依赖。
python3 -m venv env
source env/bin/activate
pip install -r requirements.txt
GPU 支持
项目只支持 GPU 使用,因为 CPU 上的计算速度可能过慢。
故障排除
如果 GPU 无法正常工作,可能需要使用较旧版本的 CUDA。可以尝试使用 CUDA 11.8。
项目及技术应用场景
stable-audio-metrics
的应用场景非常广泛,尤其适用于以下情况:
- 音乐生成模型:评估音乐生成模型生成音频的质量和真实性。
- 音频生成模型:针对音频生成模型进行质量控制和性能评估。
- 音频数据处理:处理和评估音频数据集的质量,如音乐caps、Audiocaps 和 Song Describer 数据集。
使用说明
使用 stable-audio-metrics
时,需要修改示例代码以指向您要评估的文件夹,然后运行相应的脚本。例如,运行以下命令以使用 Audiocaps 数据集进行评估:
CUDA_VISIBLE_DEVICES=6 python examples/audiocaps_no-audio.py
特殊说明
- 无数据集指标:
no-audio
示例允许在不下载数据集的情况下运行评估,因为参考统计量和嵌入向量已经计算在load
中。 - 与稳定音频比较:为了与稳定音频进行公平比较,您需要将所有参数设置为
no-audio
示例中的参数,即使您的模型输出不同采样率的单声道音频。
项目特点
stable-audio-metrics
的特点如下:
- 全面性:提供多种评价指标,全面评估音频生成模型的质量。
- 灵活性:能够处理可变长度的输入,适应不同形式的音频生成。
- 高效性:利用 GPU 加速,提高评估效率。
- 实用性:适用于多种数据集和音频处理场景。
数据结构
在生成音频时,每个提示对应的音频应以对应的 ID 命名。例如,Musiccaps 示例假设有 5,521 个生成音频,它们的命名格式为 ytid
从提示文件 load/musiccaps-public.csv
中获取。
通过上述介绍,可以看出 stable-audio-metrics
是一个强大且实用的音频生成模型评估工具。无论是音乐生成还是音频数据处理,它都能提供有效的帮助。如果您正面临音频生成模型的评估挑战,不妨尝试使用 stable-audio-metrics
,它将成为您不可或缺的助手。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考