基于深度学习的钢琴音乐音符检测算法研究
1. 背景介绍
1.1 问题的由来
音乐信息检索(Music Information Retrieval, MIR)是计算机科学与音乐学交叉领域的一个重要研究方向,其目标是利用计算机技术对音乐信息进行分析、处理、理解和检索。作为 MIR 的一个重要分支,自动音乐转录(Automatic Music Transcription, AMT)旨在将音频信号转换为音乐符号表示,例如乐谱。在 AMT 中,音符检测是基础且关键的一环,其任务是从音频信号中识别出每个音符的音高、起始时间和持续时间等信息。
钢琴音乐以其丰富的表现力和广泛的应用场景,一直是 AMT 研究的热点。然而,由于钢琴音乐音符之间存在复杂的相互影响,例如和声、复调等,以及演奏技巧的多样性,例如延音踏板的使用,使得钢琴音乐音符检测成为一项极具挑战性的任务。
1.2 研究现状
传统的钢琴音乐音符检测方法主要依赖于信号处理技术,例如短时傅里叶变换(Short-Time Fourier Transform, STFT)、小波变换(Wavelet Transform)等,提取音频信号的时频特征,然后利用隐马尔可夫模型(Hidden