音频与音乐的深度学习应用
1. 音频相似度与翻唱检测
1.1 音频相似度
传统计算音频相似度的方法是计算各自高斯混合模型(GMM)之间的Kullback - Leibler散度,但这种方法计算成本高,且无法重现真实的排序列表。近期,有人提出将深度神经网络(DNN)度量学习应用于该问题。具体步骤如下:
1. 从真实的排序列表出发,根据相对位置定义一组排序三元组 $T_r$ = {锚点,正例,负例}。
2. 使用三元组损失训练一个类似于VGG - Net的卷积神经网络(CNN),输入为512个常量Q变换(CQT)帧的块。
3. 网络学习将每个音轨投影到一个128维的“音频相似度嵌入”空间,两个音轨之间的相似度通过它们在该空间中的欧几里得距离来衡量。
1.2 翻唱检测
“翻唱”指的是对一首音乐作品的不同录制诠释。由于大量用户生成内容的出现,需要可扩展的版权监控系统,因此翻唱检测问题受到了广泛关注。相关方法如下:
1. 使用CQT、估计的主音高和多音高表示联合表示音乐音轨的内容。
2. 将这些表示输入到深度CNN网络中。
3. 使用三元组损失范式,结合锚点音轨、正例(锚点的翻唱)和负例(非锚点的翻唱)对网络进行训练。
4. 网络的输出被视为音轨嵌入,训练后,两个音轨嵌入之间的距离可指示它们是否为翻唱关系,该算法显著提高了翻唱检测的性能。
2. 环境声音描述
2.1 研究现状
声学场景和事件的检测与分类(DCASE)领域受到了工业界的高度关注。深度学习框架的出现推动了环境声音识别的进展,几乎上述提到的所有概念和架构都被应用于特
超级会员免费看
订阅专栏 解锁全文
732

被折叠的 条评论
为什么被折叠?



