MFCC语音处理的简要流程

本文详细介绍了MFCC(梅尔频率倒谱系数)的特征提取流程,包括预加重、分帧、加窗、DFT、Mel滤波及倒谱分析等关键步骤,旨在帮助读者深入理解语音信号处理中的这一重要技术。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近在培训师弟时发现,有些师弟对于MFCC的特征提取流程还不熟悉,故写这篇博客。

      梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC),顾名思义,该方法的特征提取简单讲包含两个关键步骤:转化到梅尔频率,然后进行倒谱分析。

整体过程主要包含以下步骤:

1)预加重,作用就是为了消除发声过程中,声带和嘴唇造成的效应,来补偿语音信号受到发音系统所压抑的高频部分。并且能突显

高频的共振峰。

2)分帧,将语音信号分为帧

3)加窗,分帧后,每一帧的起始段和末尾端会出现不连续的地方,所以分帧越多与原始信号的误差也就越大。加窗就是为了解决这个问题,使分帧后的信号变得连续,每一帧就会表现出周期函数的特征。在语音信号处理中一般加汉明窗对每帧信号加一个hamming/hanning窗,使每帧信号两端衰减至接近0

4)DFT(Discrete Fourier Transform),得到向量特征,并将能量(幅值)谱转化为功率谱

5)Mel滤波,通过Mel滤波器组进行滤波,以得到mel频谱(符合人耳听觉习惯的声谱)

6)倒谱分析:首先取对数,然后做逆变换。在实现过程中逆变换一般是通过Discrete cosine Transform(DCT)来实现,取DCT后的系数即为梅尔频率倒谱系数MFCC,也就是这帧语音的特征。

参考的博客:http://www.voidcn.com/article/p-aifqjucc-bqe.html

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值