初步了解了baseline,并成功跑通。
然后讲一下我理解的整个baseline的过程
1.首先导入了个音频库,里面是动物吃不同食物的声音。
2.然后是特征提取以及数据集的建立,
这里运用了mfcc的方法,
个人理解,mfcc就是在语音识别领域,将语音物理信息(频谱包络和细节)进行编码运算得到的一组特征向量。
里面的mel滤波器组,将语音变换到mel域,mel域是仿照人耳设计的,
更符合人耳的听觉特性。
3.cnn卷积神经网络
卷积层,池化层,关键的两个步骤,主要我的理解是将众多特征向量的特征拟合,变成另外一些向量供机器去训练
一个小白的简介,如果有什么错误,欢迎大佬改正。