【Machine Learning】音特征提取技巧

最新推荐文章于 2022-09-16 00:05:05 发布

原创

最新推荐文章于 2022-09-16 00:05:05 发布 · 949 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#machine learning #音频特征 #fft

本文探讨了音频信息处理中特征选取的重要性，强调了窗长、跳步的选择，以及统计方法和多尺度、多分辨率在特征提取中的应用。通过不同窗长和跳步组合，以及统计方法如均值、方差、最大值、最小值等，可以增强特征表示。此外，利用多尺度技术如Multiresolution spectrograms和金字塔方法能提升音频特征的丰富性。

研究音频信息处理方向已有一年之久，深刻认识到音频特征的选取对实验结果的影响之大，无论是从最底层的时域、频域的基础特征，还是经典的MFCC、PLP特征，甚至是无监督特征，其中的任何一种在不同的应用场合下都有其优势，不同特征的结合也会有比较大的影响，然而，说到底还是离不开以上这些基本的类型。如何在实验中对上述的某一样的特征进行更加精细的分析呢？下面会给大家提供一些思路。

1、窗长和跳步

对于一段音频，很多时候不能将整段进行FFT，这个时候就需要选取合适的窗长，为了减少分窗时带来的人为带来的窗边界影响，又需要选取合适的跳步。所以对于窗长和跳步的选取十分重要，甚至可以将多种不同窗长和跳步的特征结合起来。

2、统计方法

如1所说，通常我们不会将整段音频进行FFT，所以，在做完对单个帧的特征提取后，需要做一个统计（当然，也有不需要统计的时候，比如Deep Learning里输入特征通常是整个对象的信息），一般的常用的统计方法是求对应维特征的均值和方差，比如对于一个N帧的M维特征矩阵，最后将每列的值求均值和方差，可以得到一个2M的特征向量，这个向量就是最终提取出来的特征。事实上，我们均值和方差并非唯一的统计方法，比如，我们还可以选取某一列的最大值或者最小值，还有相邻帧作差（一阶差）的均值和方差，甚至是二阶差、N阶差的均值和方差，然后还有（X-X均）^3这种玩意儿。

3、多尺度、多分辨率

类似于图像的