数字音乐录音中鼓点片段的查找
1 研究背景与目标
在电子舞曲(EDM)创作中,鼓点片段(breakbeats)的发现和处理是常见的艺术流程。以往研究多聚焦于鼓点提取和处理阶段,而本次研究旨在实现鼓点片段的自动发现,为艺术家筛选有用音乐素材。
2 基线系统
2.1 特征提取
- 借鉴的特征 :参考了用于歌唱声音检测(SVD)的方法,使用了其中的部分特征,如波动图、频谱平坦度/收缩度、声乐方差(VOCVAR),并结合了梅尔频率倒谱系数(MFCCs)。
- 新特征 :引入了基于谐波 - 残差 - 打击乐源分离(HRPSS)的新特征。HRPSS 可将信号分解为音调、噪声和瞬态成分。级联谐波 - 残差 - 打击乐(CHRP)特征通过迭代应用 HRPSS 并测量成分能量,捕捉沿 HRP 轴的音色特性,实验中采用了七维的 CHRP 特征。
- 特征矩阵 :将所有特征连接后,每个频谱帧得到一个 83 维的向量,所有向量构成特征矩阵,并划分为训练集、验证集和测试集用于机器学习。
2.2 分类方案
采用随机森林(RF)作为分类方案。RF 为每个类别提供逐帧得分值,可作为分类器决策的置信度度量。在二分类场景中,选择对应目标纯打击乐类别的得分函数作为决策函数。决策函数值接近 1 表示很可能属于纯打击乐类别,接近 0 则相反。在二值化之前,可使用中值滤波器平滑决策函数,以稳定检测结果,避免分类频繁翻转。
以下是决策函数和分类的流程: