BTC-ISMIR19 项目使用教程
1. 项目的目录结构及介绍
BTC-ISMIR19/
├── audio_dataset.py
├── baseline_models.py
├── btc_model.py
├── crf_model.py
├── LICENSE
├── README.md
├── run_config.yaml
├── test.py
├── train.py
├── train_crf.py
└── utils/
└── ...
- audio_dataset.py: 加载数据并预处理标签文件为和弦标签,将mp3文件转换为常数Q变换。
- baseline_models.py: 包含基线模型的代码。
- btc_model.py: 包含BTC(双向变换器)的PyTorch实现。
- crf_model.py: 包含条件随机场(CRFs)的PyTorch实现。
- LICENSE: 项目的MIT许可证文件。
- README.md: 项目的介绍和使用说明。
- run_config.yaml: 包含超参数和路径的配置文件。
- test.py: 用于从音频文件中识别和弦。
- train.py: 用于训练模型。
- train_crf.py: 用于训练CRFs。
- utils/: 包含一些辅助工具和函数。
2. 项目的启动文件介绍
train.py
train.py
是用于训练BTC模型的启动文件。通过运行该文件,可以开始训练模型。
python train.py
test.py
test.py
是用于从音频文件中识别和弦的启动文件。通过运行该文件,可以对音频文件进行和弦识别。
python test.py --audio_dir audio_folder --save_dir save_folder --voca False
--audio_dir
: 包含音频文件的文件夹(默认值为./test
)。--save_dir
: 保存识别结果的文件夹(默认值为./test
)。--voca
: 标签类型,False
表示主要和次要标签类型,True
表示大词汇量标签类型(默认值为False
)。
3. 项目的配置文件介绍
run_config.yaml
run_config.yaml
是项目的配置文件,包含训练和测试过程中所需的超参数和路径。
# 示例配置文件内容
model_params:
hidden_size: 256
num_layers: 4
dropout: 0.1
data_params:
audio_dir: "./data/audio"
label_dir: "./data/labels"
save_dir: "./results"
training_params:
batch_size: 32
learning_rate: 0.001
num_epochs: 100
- model_params: 模型参数,如隐藏层大小、层数和dropout率。
- data_params: 数据路径,如音频文件夹、标签文件夹和保存结果的文件夹。
- training_params: 训练参数,如批量大小、学习率和训练轮数。
通过修改run_config.yaml
文件中的参数,可以调整模型的训练和测试行为。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考