stable-audio-metrics:音频生成模型评估利器

stable-audio-metrics:音频生成模型评估利器

stable-audio-metrics Metrics for evaluating music and audio generative models – with a focus on long-form, full-band, and stereo generations. stable-audio-metrics 项目地址: https://gitcode.com/gh_mirrors/st/stable-audio-metrics

项目介绍

stable-audio-metrics 是一个开源项目,旨在为音乐和音频生成模型提供一系列评价指标。这些指标包括 Fréchet 距离、Kullback-Leibler 散度以及 CLAP 分数,它们分别基于 Openl3、PaSST 和 CLAP-LAION 等知名技术。这些指标经过优化,以适应长形式全频带立体声生成的实际应用场景,并能够处理可变长度的输入。

项目技术分析

stable-audio-metrics 的核心功能是提供三种评价指标:

  • Fréchet 距离:基于 Openl3,适用于 48kHz 的音频。
  • Kullback-Leibler 散度:基于 PaSST,适用于 32kHz 的音频。
  • CLAP 分数:基于 CLAP-LAION,适用于 48kHz 的音频。

这些指标旨在评估音频生成模型的质量,尤其是针对长形式的音频生成。项目采用了 GPU 加速,以提高计算效率。

安装

安装 stable-audio-metrics 需要先克隆仓库,然后创建一个 Python 虚拟环境,并激活它。接下来,通过 pip 安装项目依赖。

python3 -m venv env
source env/bin/activate
pip install -r requirements.txt

GPU 支持

项目只支持 GPU 使用,因为 CPU 上的计算速度可能过慢。

故障排除

如果 GPU 无法正常工作,可能需要使用较旧版本的 CUDA。可以尝试使用 CUDA 11.8。

项目及技术应用场景

stable-audio-metrics 的应用场景非常广泛,尤其适用于以下情况:

  • 音乐生成模型:评估音乐生成模型生成音频的质量和真实性。
  • 音频生成模型:针对音频生成模型进行质量控制和性能评估。
  • 音频数据处理:处理和评估音频数据集的质量,如音乐caps、Audiocaps 和 Song Describer 数据集。

使用说明

使用 stable-audio-metrics 时,需要修改示例代码以指向您要评估的文件夹,然后运行相应的脚本。例如,运行以下命令以使用 Audiocaps 数据集进行评估:

CUDA_VISIBLE_DEVICES=6 python examples/audiocaps_no-audio.py

特殊说明

  • 无数据集指标no-audio 示例允许在不下载数据集的情况下运行评估,因为参考统计量和嵌入向量已经计算在 load 中。
  • 与稳定音频比较:为了与稳定音频进行公平比较,您需要将所有参数设置为 no-audio 示例中的参数,即使您的模型输出不同采样率的单声道音频。

项目特点

stable-audio-metrics 的特点如下:

  • 全面性:提供多种评价指标,全面评估音频生成模型的质量。
  • 灵活性:能够处理可变长度的输入,适应不同形式的音频生成。
  • 高效性:利用 GPU 加速,提高评估效率。
  • 实用性:适用于多种数据集和音频处理场景。

数据结构

在生成音频时,每个提示对应的音频应以对应的 ID 命名。例如,Musiccaps 示例假设有 5,521 个生成音频,它们的命名格式为 ytid 从提示文件 load/musiccaps-public.csv 中获取。

通过上述介绍,可以看出 stable-audio-metrics 是一个强大且实用的音频生成模型评估工具。无论是音乐生成还是音频数据处理,它都能提供有效的帮助。如果您正面临音频生成模型的评估挑战,不妨尝试使用 stable-audio-metrics,它将成为您不可或缺的助手。

stable-audio-metrics Metrics for evaluating music and audio generative models – with a focus on long-form, full-band, and stereo generations. stable-audio-metrics 项目地址: https://gitcode.com/gh_mirrors/st/stable-audio-metrics

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

杜薇剑Dale

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值