声学事件分类与线性预测的高效方法研究
声学事件分类实验
实验设置
在声学事件分类任务中,为了评估不同频率尺度和参数化方法的性能,进行了一系列实验。实验采用了 5 折交叉验证,每次将不同的一组数据用于测试,其余用于训练。声学事件分类(AEC)系统基于带有径向基函数(RBF)核的一对一支持向量机(SVM),并使用多数投票方案进行最终决策。
对于基线实验,每 10 毫秒提取 12 个倒谱系数,使用 20 毫秒长的汉明分析窗口和由 40 个频谱带组成的听觉滤波器组。考虑了四种不同的频率尺度:Mel(产生传统的 MFCC)、等效矩形带宽(ERB)、巴克(Bark)和线性。此外,还计算了每个帧的对数能量和一阶导数(在需要时),并将其添加到倒谱系数中。最终的特征向量由这些短期参数在 2 秒长度、重叠 1 秒的片段上计算的统计量(均值、标准差和偏度)组成。
实验结果
实验结果通过改变听觉滤波器组中消除的低频带数量来展示,包括在段级别(正确分类的段的百分比)和目标事件级别(正确分类的目标事件的百分比)的平均分类率。以下是不同频率尺度和参数化方法的段级别平均分类率:
| Param. | Scale | Base. | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
| — | — | — | — | — | — | — | — | — | — | — | — | — | — | — |
| CC | MEL | 75.10 | 77.47 | 77.66 | 77.58 | 77.63 | 78.16 | 76.95 | 78.11 | 76.87 | 76.12 |
超级会员免费看
订阅专栏 解锁全文
1900

被折叠的 条评论
为什么被折叠?



