音乐转录（AMT）库Omnizart论文笔记及实践

最新推荐文章于 2024-12-23 14:32:44 发布

原创

最新推荐文章于 2024-12-23 14:32:44 发布 · 1.4k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #omnizart #音乐

本文介绍了Omnizart库，一个用于自动音乐转录（AMT）的Python工具箱，支持多种乐器转录及音乐信息检索任务。文章记录了安装配置过程及使用示例，展示了AMT在实际应用中的挑战。

文章目录

前言
一、论文笔记
二、安装过程
三、实验ADT
总结

前言

自动音乐转录（AMT），从原始音频推断音符，是音乐理解核心的一项具有挑战性的任务。与通常关注单个人声的自动语音识别（ASR）不同，AMT 通常需要同时转录多个乐器，同时保留精细的音高和时间信息。
Omnizart库是一个用于AMT任务的python库，收集了目前各种乐器转录的SOTA模型，并提供了统一的命令行接口。

一、论文笔记

论文地址：

Omnizart: A General Toolbox for Automatic Music Transcription

摘要

提供并发布了Omnizart，一个新的Python库，它为自动音乐转录（AMT）提供了一个简化的解决方案。
Omnizart包含了基于深度学习的全AMT周期的多个模型，并且提供了便捷的命令行接口供用户调用。
据我们所知，Omnizart是第一个提供多乐器转录的工具包
乐器类别，从独奏、乐器合奏、打击乐器到声乐，以及和弦识别和节拍跟踪模型，两种音乐信息检索（MIR）与AMT高度相关。
Omnizart包含了：
1.用于帧级别和音符级别的转录的预训练模型，支持多音高乐器，人声，鼓事件
2.和弦识别和击打跟踪预训练模型
3.一系列的函数，支撑包括数据集下载，特征预处理，模型训练，转录等功能

背景：

由于音乐信号的多样性，AMT一直是MIR的核心挑战。通常，用各种乐器演奏的音符流相互重叠，以表达音乐中不同层次的信息；
这种特征使识别属性的任务变得复杂(例如，乐器家族、乐器类别、音高和音高轮廓、持续时间、开始时间、和弦或非和弦音调、节拍等)
在音乐中的每个音符和每一段中。以前的研究大多只关注于转录一组有限的属性(例如，钢琴的solo转录和其他类型的仪

最低0.47元/天解锁文章