14、高效双层模型助力翻唱歌曲识别

grape

于 2025-06-16 13:24:06 发布

阅读量47

点赞数

CC 4.0 BY-SA版权

分类专栏：多媒体建模：从理论到实践的全面解析文章标签：翻唱歌曲识别音乐信息检索双层模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/grape/article/details/149517159

多媒体建模：从理论到实践的全面解析专栏收录该内容

48 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

高效双层模型助力翻唱歌曲识别

1. 引言

在过去十年里，翻唱歌曲识别在音乐信息检索领域的重要性日益凸显，因其在音乐版权保护和音乐管理方面具有潜在商业价值。早期，许多研究将歌曲表示为特征向量序列，并专注于序列对齐算法。例如，像色度（chroma）这种能代表12个音高类强度且有多种增强版本的流行特征，被广泛用于音乐表示。之后，一些精细的匹配技术被用于衡量歌曲间的相似度，如动态规划（DP）、基本局部比对搜索工具（BLAST）思想的应用，以及动态时间规整（DTW）算法等。Qmax算法在2007 - 2009年的Mirex音频翻唱歌曲识别竞赛中获胜，它通过将色度向量嵌入高维向量并应用交叉递归图来进行翻唱歌曲识别。然而，这些匹配方法虽检索准确率高，但因时间成本高，不适用于大规模数据库。

随着百万歌曲数据集的出现，一些学者尝试探索紧凑的固定维度特征来进行翻唱歌曲识别。例如，通过时间序列建模获取歌曲的固定维度表示，利用和弦轮廓计算歌曲间距离，提取二维傅里叶幅度（2DFM）特征等。这些方法虽能降低时间成本，但高度压缩的表示往往会丢失大量时间信息，导致性能不佳。

为了实现高精度和高效率的平衡，本文提出了一种基于2DFM和Qmax的双层模型。第一层使用2DFM从数据库中生成潜在候选歌曲，为提高效率，利用KD - Tree和Ball - Tree加速该过程；第二层使用Qmax对候选歌曲的排名进行细化。

2. 方法

本系统是一个双层模型，框架如下：

graph LR
    A[Query] --> B[2DFM - KDT]
    B --> C[Top k ca

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。