高效双层模型助力翻唱歌曲识别
1. 引言
在过去十年里,翻唱歌曲识别在音乐信息检索领域的重要性日益凸显,因其在音乐版权保护和音乐管理方面具有潜在商业价值。早期,许多研究将歌曲表示为特征向量序列,并专注于序列对齐算法。例如,像色度(chroma)这种能代表12个音高类强度且有多种增强版本的流行特征,被广泛用于音乐表示。之后,一些精细的匹配技术被用于衡量歌曲间的相似度,如动态规划(DP)、基本局部比对搜索工具(BLAST)思想的应用,以及动态时间规整(DTW)算法等。Qmax算法在2007 - 2009年的Mirex音频翻唱歌曲识别竞赛中获胜,它通过将色度向量嵌入高维向量并应用交叉递归图来进行翻唱歌曲识别。然而,这些匹配方法虽检索准确率高,但因时间成本高,不适用于大规模数据库。
随着百万歌曲数据集的出现,一些学者尝试探索紧凑的固定维度特征来进行翻唱歌曲识别。例如,通过时间序列建模获取歌曲的固定维度表示,利用和弦轮廓计算歌曲间距离,提取二维傅里叶幅度(2DFM)特征等。这些方法虽能降低时间成本,但高度压缩的表示往往会丢失大量时间信息,导致性能不佳。
为了实现高精度和高效率的平衡,本文提出了一种基于2DFM和Qmax的双层模型。第一层使用2DFM从数据库中生成潜在候选歌曲,为提高效率,利用KD - Tree和Ball - Tree加速该过程;第二层使用Qmax对候选歌曲的排名进行细化。
2. 方法
本系统是一个双层模型,框架如下:
graph LR
A[Query] --> B[2DFM - KDT]
B --> C[Top k ca