MFCC语音信号特征提取——主要知识点总结

MFCC是语音识别的关键技术,涉及预加重、分帧、加窗、FFT和Mel滤波器组等步骤。预加重使得频谱平坦,分帧处理确保短时平稳,加窗增加连续性,FFT转换到频域,再通过Mel滤波器提取特征。MATLAB代码可用于实现这些过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

MFCCs(Mel Frequency Cepstral Coefficents) 是一种常用语语音识别,说话人识别的特征提取方法。

一、提取特征的主要过程:

  1. 对语音进行预加重、分帧和加窗
  2. 对每一个 短时分析窗通过FFT 得到对应的 频谱
  3. 将上面的频谱通过 Mel滤波器组 得到 Mel频谱
  4. 在Mel 频谱上面进行倒谱分析,获得 MFCC【Mel频率倒谱系数】,这个MFCC就是这帧语音的特征

MFCC流程

1、预加重

对输入的语音信号进行高频部分的提升,使信号的频谱变得平坦,保持在低频到高频的整个频带重,能用同样的信噪比求频谱。此外,对发声过程中声带和嘴唇产生的影响进行消除。

2、分帧

帧时:(frame duration) 将N个采样点集合成一个观测单元,称为帧。
通常,设定N=256或者512;时间为20~30ms;
一般人说话的声音在10ms-30ms的时间段内被认为是短时平稳的,所以一般取10~25时间作为帧时;
帧移:(frame shift) 为了避免相邻两帧的变化过大,两个帧之间有一段重叠的区域,包含M个采样点。表示取下一帧时窗移动的距离(毫秒级)。
通常,设定M=1/2 N或者M=1/3N;
通常,语音识别语音识别的采样频率为8KHZ 或16KHZ,如果帧的长度为256个采样点,那么对应的帧移时间长度为256/8000 *1000 = 32ms;

通常,帧时取25ms或者20ms.帧移取10ms.

在这里插入图片描述

3、预加重系数(preemphasis coefficient)

相当于高通滤波器。
通常,取0.95-0.97.

speech = filter([1-alpha], 1, speech);

alpha 就是预加重系数,speech还是原来得到的语音信号。

4、加窗(Hamming Window) ——w(n)

将每一帧乘上汉明窗,增加帧左端和右端的连续性
假设,分帧之后的信号为S(n), n = 0 , 1 , . . .

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值