前言
自动音乐转录(AMT),从原始音频推断音符,是音乐理解核心的一项具有挑战性的任务。与通常关注单个人声的自动语音识别(ASR)不同,AMT 通常需要同时转录多个乐器,同时保留精细的音高和时间信息。
Omnizart库是一个用于AMT任务的python库,收集了目前各种乐器转录的SOTA模型,并提供了统一的命令行接口。
一、论文笔记
论文地址:
Omnizart: A General Toolbox for Automatic Music Transcription
摘要
提供并发布了Omnizart,一个新的Python库,它为自动音乐转录(AMT)提供了一个简化的解决方案。
Omnizart包含了基于深度学习的全AMT周期的多个模型,并且提供了便捷的命令行接口供用户调用。
据我们所知,Omnizart是第一个提供多乐器转录的工具包
乐器类别,从独奏、乐器合奏、打击乐器到声乐,以及和弦识别和节拍跟踪模型,两种音乐信息检索(MIR)与AMT高度相关。
Omnizart包含了:
1.用于帧级别和音符级别的转录的预训练模型,支持多音高乐器,人声,鼓事件
2.和弦识别和击打跟踪预训练模型
3.一系列的函数,支撑包括数据集下载,特征预处理,模型训练,转录等功能
背景:
由于音乐信号的多样性,AMT一直是MIR的核心挑战。通常,用各种乐器演奏的音符流相互重叠,以表达音乐中不同层次的信息;
这种特征使识别属性的任务变得复杂(例如,乐器家族、乐器类别、音高和音高轮廓、持续时间、开始时间、和弦或非和弦音调、节拍等)
在音乐中的每个音符和每一段中。以前的研究大多只关注于转录一组有限的属性(例如,钢琴的solo转录和其他类型的仪

本文介绍了Omnizart库,一个用于自动音乐转录(AMT)的Python工具箱,支持多种乐器转录及音乐信息检索任务。文章记录了安装配置过程及使用示例,展示了AMT在实际应用中的挑战。
最低0.47元/天 解锁文章
937






