Stable Audio Tools 数据集配置完全指南

祁泉望Ernestine

于 2025-06-11 09:19:31 发布

阅读量299

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_01026/article/details/148578965

Stable Audio Tools 数据集配置完全指南

stable-audio-tools Generative models for conditional audio generation 项目地址: https://gitcode.com/gh_mirrors/st/stable-audio-tools

前言

在音频生成和处理的深度学习项目中，数据集的准备和配置是至关重要的第一步。本文将深入解析Stable Audio Tools项目中的数据集配置系统，帮助开发者高效地准备训练数据。

数据集类型概述

Stable Audio Tools支持两种主要的数据加载方式：

本地音频文件：直接从本地文件系统加载音频文件
S3 WebDataset：从Amazon S3存储桶加载WebDataset格式的数据

本地音频文件配置

基本配置

要使用本地音频文件进行训练，需要在配置文件中指定dataset_type为"audio_dir"，并在datasets数组中提供音频目录的路径。

{
    "dataset_type": "audio_dir",
    "datasets": [
        {
            "id": "my_audio",
            "path": "/path/to/audio/dataset/"
        }
    ],
    "random_crop": true
}

关键参数解析

id：为数据集指定一个唯一标识符
path：音频文件所在的根目录路径
random_crop：决定是否从音频文件中随机位置裁剪训练样本

文件加载行为

系统会自动递归扫描指定目录及其子目录，加载所有支持的音频格式文件。支持的常见格式包括但不限于WAV、FLAC、MP3等。

S3 WebDataset配置

基本配置

对于存储在S3上的WebDataset格式数据，需要将dataset_type设置为s3，并提供S3存储桶路径。

{
    "dataset_type": "s3",
    "datasets": [
        {
            "id": "s3-test",
            "s3_path": "s3://my-bucket/datasets/webdataset/audio/"
        }
    ],
    "random_crop": true
}

WebDataset格式要求

WebDataset使用TAR文件打包数据，每个音频文件应有一个对应的JSON元数据文件，文件名相同但扩展名不同。例如：

000001.flac
000001.json
000002.flac
000002.json

系统会自动递归搜索S3路径下的所有TAR文件，并建立音频文件与元数据的关联。

高级功能：自定义元数据

使用场景

当需要为训练过程提供额外的条件信息时，可以通过自定义元数据模块实现。这在以下场景特别有用：

需要从音频分析中提取特征作为条件
需要重组或转换现有元数据
需要添加项目特定的元数据字段

实现方法

创建一个Python模块，包含get_custom_metadata函数
在数据集配置中指定该模块路径

{
    "dataset_type": "audio_dir",
    "datasets": [
        {
            "id": "my_audio",
            "path": "/path/to/audio/dataset/",
            "custom_metadata_module": "/path/to/custom_metadata.py",
        }
    ],
    "random_crop": true
}

自定义元数据模块示例

def get_custom_metadata(info, audio):
    """自定义元数据处理函数
    
    参数:
        info: 包含音频文件信息的字典
        audio: 实际音频数据
        
    返回:
        包含自定义元数据的字典
    """
    # 使用相对路径作为提示词
    return {"prompt": info["relpath"]}