stable-audio-metrics：音频生成模型评估利器

杜薇剑Dale

于 2025-03-29 10:42:57 发布

阅读量617

点赞数 19

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gitblog_00811/article/details/146641686

stable-audio-metrics：音频生成模型评估利器

stable-audio-metrics Metrics for evaluating music and audio generative models – with a focus on long-form, full-band, and stereo generations. 项目地址: https://gitcode.com/gh_mirrors/st/stable-audio-metrics

项目介绍

stable-audio-metrics 是一个开源项目，旨在为音乐和音频生成模型提供一系列评价指标。这些指标包括 Fréchet 距离、Kullback-Leibler 散度以及 CLAP 分数，它们分别基于 Openl3、PaSST 和 CLAP-LAION 等知名技术。这些指标经过优化，以适应长形式全频带立体声生成的实际应用场景，并能够处理可变长度的输入。

项目技术分析

stable-audio-metrics 的核心功能是提供三种评价指标：

Fréchet 距离：基于 Openl3，适用于 48kHz 的音频。
Kullback-Leibler 散度：基于 PaSST，适用于 32kHz 的音频。
CLAP 分数：基于 CLAP-LAION，适用于 48kHz 的音频。

这些指标旨在评估音频生成模型的质量，尤其是针对长形式的音频生成。项目采用了 GPU 加速，以提高计算效率。

安装

安装 stable-audio-metrics 需要先克隆仓库，然后创建一个 Python 虚拟环境，并激活它。接下来，通过 pip 安装项目依赖。

python3 -m venv env
source env/bin/activate
pip install -r requirements.txt

GPU 支持

项目只支持 GPU 使用，因为 CPU 上的计算速度可能过慢。

故障排除

如果 GPU 无法正常工作，可能需要使用较旧版本的 CUDA。可以尝试使用 CUDA 11.8。

项目及技术应用场景

stable-audio-metrics 的应用场景非常广泛，尤其适用于以下情况：

音乐生成模型：评估音乐生成模型生成音频的质量和真实性。
音频生成模型：针对音频生成模型进行质量控制和性能评估。
音频数据处理：处理和评估音频数据集的质量，如音乐caps、Audiocaps 和 Song Describer 数据集。

使用说明

使用 stable-audio-metrics 时，需要修改示例代码以指向您要评估的文件夹，然后运行相应的脚本。例如，运行以下命令以使用 Audiocaps 数据集进行评估：

CUDA_VISIBLE_DEVICES=6 python examples/audiocaps_no-audio.py

特殊说明

无数据集指标：no-audio 示例允许在不下载数据集的情况下运行评估，因为参考统计量和嵌入向量已经计算在 load 中。
与稳定音频比较：为了与稳定音频进行公平比较，您需要将所有参数设置为 no-audio 示例中的参数，即使您的模型输出不同采样率的单声道音频。

项目特点

stable-audio-metrics 的特点如下：

全面性：提供多种评价指标，全面评估音频生成模型的质量。
灵活性：能够处理可变长度的输入，适应不同形式的音频生成。
高效性：利用 GPU 加速，提高评估效率。
实用性：适用于多种数据集和音频处理场景。

数据结构

在生成音频时，每个提示对应的音频应以对应的 ID 命名。例如，Musiccaps 示例假设有 5,521 个生成音频，它们的命名格式为 ytid 从提示文件 load/musiccaps-public.csv 中获取。

通过上述介绍，可以看出 stable-audio-metrics 是一个强大且实用的音频生成模型评估工具。无论是音乐生成还是音频数据处理，它都能提供有效的帮助。如果您正面临音频生成模型的评估挑战，不妨尝试使用 stable-audio-metrics，它将成为您不可或缺的助手。

stable-audio-metrics Metrics for evaluating music and audio generative models – with a focus on long-form, full-band, and stereo generations. 项目地址: https://gitcode.com/gh_mirrors/st/stable-audio-metrics

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

杜薇剑Dale 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。