语音识别之Fbank特征提取工具的比较（kaldi、python_speech_features、torchaudio）

最新推荐文章于 2025-06-03 09:09:46 发布

蒟蒻CCA

最新推荐文章于 2025-06-03 09:09:46 发布

阅读量7.7k

点赞数 10

CC 4.0 BY-SA版权

分类专栏： kaldi 语音识别（ASR）

本文链接：https://blog.youkuaiyun.com/qq_36778821/article/details/113559867

本文探讨了python_speech_features、torchaudio和kaldi在提取Fbank特征时的异同。主要区别包括默认参数、分帧处理、功率谱计算、Mel滤波器组的计算方式以及对最后一帧的处理。实验结果显示，虽然存在细微差异，但整体上三者提取的特征相近。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

首先，提取fbank特征的大致步骤为：预加重、分帧、加窗、FFT、Mel滤波器组、对数运算。（加上DCT离散余弦变换就得到MFCC特征）。

一、python_speech_features提特征源码：
在这里插入图片描述
从源码研究，python提fbank特征的接口python_speech_features的工作流程为：
1、**signal = sigproc.preemphasis(signal,preemph)**为预加重，系数 a=0.97；预加重其实就是将语音信号通过一个高通滤波器：y(t)=x(t)-ax(t-1)；

2、**frames = sigproc.framesig(signal, winlensamplerate, winstepsamplerate, winfunc)**为分帧加窗(这里默认窗是全1数组，相当于没有加窗功能，想要加窗必须传参，如：winfunc=numpy.hamming)，也就是将采样点按照帧移20-30ms，帧长1/2或者1/3个帧长进行分帧，python_speech_features的帧长是25ms（400个采样点），帧移10ms（160个采样点）。再将每个帧和窗相乘，一般用hamming窗，但是这里默认没有加窗；
在这里插入图片描述
3、pspec = sigproc.powspec(f