音乐流派分类算法的对比与实践
1. 音频特征介绍
1.1 Mel频率倒谱系数(MFCCs)
Mel频率倒谱系数(MFCCs)和色度或频谱一样,是一组音频特征。它于20世纪60年代末在麻省理工学院被开发出来,最初用于研究地震音频中的回声,也用于模拟人类语音的特征。在相关项目中,MFCCs是声音最重要的特征之一。计算倒谱时,先对信号进行离散傅里叶变换,然后取对数,最后再进行傅里叶逆变换,这样得到的频谱的频谱就被称为倒谱。
1.2 和声(Harmony)
和声是声音的叠加,人类耳朵可以对其进行分析。这意味着特定振幅、频率的声音频率、音高(音调或音符)或和弦同时出现。从音乐术语的角度更容易理解和声,例如在钢琴谱中,A4键的标准频率为440 Hz,其音高为69。由于音符以12为周期重复,所以音高为81的A5频率为880 Hz,是440 Hz的整数倍(两倍)。因此,如果对于一个音频波,将A4视为基频,那么A5就是它的和声。
2. 数据建模算法
2.1 线性判别分析(LDA)
线性判别分析(LDA)是一种类似于逻辑回归的分类方法,但它以不同的方式来建模 $P(Y = m|X = x_m)$。这里我们不计算前面提到的概率,而是尝试计算 $P(X = x_m|Y = m)$,然后使用贝叶斯定理进行转换。该方法涉及以下假设:
1. $p_k$ 表示从数据集中随机选择的一个项目属于第 $m$ 类的先验概率。
2. 设 $f_k(X) = P(X = x_m|Y = m)$ 表示来自第 $m$ 类的观测值 $X$ 的密度函数。$f_k(X)$ 越大,数据点(观测值)属于第 $m$ 类的概率
超级会员免费看
订阅专栏 解锁全文
2745

被折叠的 条评论
为什么被折叠?



