统一声音质量评估工具：Audiobox-Aesthetics-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00607/article/details/147037995

统一声音质量评估工具：Audiobox-Aesthetics

audiobox-aesthetics Unified automatic quality assessment for speech, music, and sound. 项目地址: https://gitcode.com/gh_mirrors/au/audiobox-aesthetics

1. 项目介绍

Audiobox-Aesthetics 是一个开源项目，由 Facebook Research 开发，旨在提供一种统一的声音质量评估方法，适用于语音、音乐和声音。该项目通过预训练的模型，能够自动评估音频内容的愉悦性、实用性、制作复杂性和制作质量。

2. 项目快速启动

安装

首先，您需要安装 Python 3.9 或更高版本以及 Pytorch 2.2 或更高版本。然后，可以使用 pip 命令安装 Audiobox-Aesthetics。

pip install audiobox_aesthetics

或者，您可以直接从源代码安装：

git clone https://github.com/facebookresearch/audiobox-aesthetics.git
cd audiobox-aesthetics
pip install -e .

使用命令行界面进行预测

创建一个 jsonl 文件，格式如下：

{"path": "/path/to/a.wav"}
{"path": "/path/to/b.flac"}
...
{"path": "/path/to/z.wav"}

如果只想预测特定时间戳的音频，可以使用以下格式：

{"path": "/path/to/a.wav", "start_time": 0, "end_time": 5}
{"path": "/path/to/b.flac", "start_time": 3, "end_time": 10}

将此文件保存为 input.jsonl。

运行以下命令进行预测：

audio-aes input.jsonl --batch-size 100 > output.jsonl

如果需要指定预训练模型的路径，可以使用 --ckpt 参数。

在 Python 脚本中使用

from audiobox_aesthetics.infer import initialize_predictor
predictor = initialize_predictor()

# 从文件路径推断
predictor.forward([{"path": "/path/to/a.wav"}, {"path": "/path/to/b.flac"}])

# 从 torch 张量推断
wav, sr = torchaudio.load("/path/to/a.wav")
predictor.forward([{"path": wav, "sample_rate": sr}])