研究音频信息处理方向已有一年之久,深刻认识到音频特征的选取对实验结果的影响之大,无论是从最底层的时域、频域的基础特征,还是经典的MFCC、PLP特征,甚至是无监督特征,其中的任何一种在不同的应用场合下都有其优势,不同特征的结合也会有比较大的影响,然而,说到底还是离不开以上这些基本的类型。如何在实验中对上述的某一样的特征进行更加精细的分析呢?下面会给大家提供一些思路。
1、窗长和跳步
对于一段音频,很多时候不能将整段进行FFT,这个时候就需要选取合适的窗长,为了减少分窗时带来的人为带来的窗边界影响,又需要选取合适的跳步。所以对于窗长和跳步的选取十分重要,甚至可以将多种不同窗长和跳步的特征结合起来。
2、统计方法
如1所说,通常我们不会将整段音频进行FFT,所以,在做完对单个帧的特征提取后,需要做一个统计(当然,也有不需要统计的时候,比如Deep Learning里输入特征通常是整个对象的信息),一般的常用的统计方法是求对应维特征的均值和方差,比如对于一个N帧的M维特征矩阵,最后将每列的值求均值和方差,可以得到一个2M的特征向量,这个向量就是最终提取出来的特征。事实上,我们均值和方差并非唯一的统计方法, 比如,我们还可以选取某一列的最大值或者最小值,还有相邻帧作差(一阶差)的均值和方差,甚至是二阶差、N阶差的均值和方差,然后还有(X-X均)^3这种玩意儿。
3、多尺度、多分辨率
类似于图像的

本文探讨了音频信息处理中特征选取的重要性,强调了窗长、跳步的选择,以及统计方法和多尺度、多分辨率在特征提取中的应用。通过不同窗长和跳步组合,以及统计方法如均值、方差、最大值、最小值等,可以增强特征表示。此外,利用多尺度技术如Multiresolution spectrograms和金字塔方法能提升音频特征的丰富性。
最低0.47元/天 解锁文章
1652

被折叠的 条评论
为什么被折叠?



