为什么需要加窗分帧处理
语音信号属于一种非平稳时变信号,其产生过程与发声器官地运动紧密相关,而发声器官地状态速率相对声音振动地速率来说慢很多,因此语音信号可以视为短时平稳信号,因此,对其进行加窗分帧可将语音信号视为一个平稳信号,更便于进行分析
帧长的选择
对于语音信号来说,帧长需要满足两个条件:
从宏观上讲,它必须足够短以保证帧内信号是平稳地,而语音信号地产生与发声器官地运动紧密相关,发声器官的运动是导致信号不平稳地原因,所以在一帧信号间发声器官不能有明显变化,所以一帧地长度应当小于一个音素的长度;正常语速下,音素的持续时间大约是50-200ms,所以帧长一般取为小于50ms;
从微观上分析,一帧语音信号中必须包含足够多的振动周期,因为频域分析是对频率进行分析的,只有足够多的周期才能够分析频率,语音的基频,男声在100Hz左右,女声在200Hz左右,换算为周期就是10ms和5ms,一帧需要包含多个周期,一般取至少20ms;
语音帧加窗
取出来的帧信号在做傅里叶变化之间,需要先进行加窗操作,即与一个窗函数相乘
加窗的目的是让一帧信号的幅度在两端渐变到0,以减少频谱泄露,一般而言常用的窗函