小数据集与民族音乐数据集的自动音乐流派分类
1. 自动音乐流派分类简介
自动音乐流派分类(AMGC)是将数字化音频信号与对应的音乐流派标签关联起来的过程。它可以通过为每个音频轨道估计向量表示,然后进行数据驱动的分类过程来实现。一个合适的AMGC系统有助于音乐收藏的组织。
早期的AMGC方法之一由Tzanetakis和Cook提出。该方法基于录制声音的听觉内容取决于其频谱形状的假设,即描述短时频谱形状的特征可以生成音频内容的向量表示。在这种表示中,相近的向量对应听起来相似的音频片段,而距离远的向量对应听起来差异很大的音频片段。具体操作是,先将数字音乐轨道划分为短(46毫秒)帧,为每帧估计一组特征,接着计算1秒长块中每个特征的均值和方差,最后计算块统计的均值和方差,为每个估计特征生成一个四维向量(均值的均值、方差的均值、均值的方差、方差的方差),这个向量表示用于后续基于机器学习的分类步骤。
后来,为改进AMGC,人们提出使用不同的特征集,如从音频信号估计的小波直方图,这些手动开发的、旨在突出音频相关方面的特征被称为手工特征。近年来,深度学习(DL)技术的进步使得可以使用深度神经网络(DNNs)直接通过频谱图进行AMGC,在训练阶段神经网络的隐藏层会生成合适的特征。
不过,使用手工特征和DL技术都依赖数据驱动的优化过程来进行参数估计。流行音乐数据集容易获取此类数据,但民族音乐数据集获取一致的数据很困难,因为通常需要进行实地录音,成本较高。而且,通过社交媒体网络构建民族音乐数据集时,数据可能存在质量低、有大量噪音等问题,同时某些流派可能只有少数艺术家和制作人,这种不平衡会使分类器学习到艺术家特定的特征而非流派特定的特征,为保持艺术家平衡,数据集往往很小。
超级会员免费看
订阅专栏 解锁全文
576

被折叠的 条评论
为什么被折叠?



