参考资料
Datawhale Github官方代码
MFCC特征提取
Datawhale直播
特征提取背景
在之前的Task2中,我们初步查看了数据集的信息,并通过音频的声波图和声谱图将声音可视化了。当我们拿到这些音频数据之后,接下来就需要进行特征提取(过滤掉背景噪音等不需要的信息)筛选出我们需要的信息了。
接下来我们将简要介绍以下特征,并详细学习MFCC特征提取知识:
- 过零率 (Zero Crossing Rate)
- 频谱质心 (Spectral Centroid)
- 声谱衰减 (Spectral Roll-off)
- 梅尔频率倒谱系数 (Mel-frequency cepstral coefficients ,MFCC)
- 色度频率 (Chroma Frequencies)
1、过零率是一个信号符号变化的比率,即,在每帧中,语音信号从正变为负或从负变为正的次数。 这个特征已在语音识别和音乐信息检索领域得到广泛使用,通常对类似金属、摇滚等高冲击性的声音的具有更高的价值。一般情况下,过零率越大,频率近似越高。
(虽然是率,但是它指的是次数!&