语音特征提取流程
深度学习常用的时域-频域特征:
- Spectrogram: 语谱图
- Mel spectrogram 梅尔谱
Step 3: Framing 分帧
由于人耳能听到的声音时长至少为10ms,所以要将数字信号分帧成一个个可以听的块,也就是分帧
一帧中采样点的个数通常取2的幂,连续帧通常重复一半采样点,典型值是:256-8192
frame_duration = (1 / sr) * K K是一帧内采样点的个数
时域特征提取流程

频域特征提取流程
频域特征是在时域特征的基础上加窗再做傅里叶变换得来的

先说Step 5: Fourier transform 傅里叶变换
将时域信息转换为频域信息的关键步骤就是对时间帧进行傅里叶变换操作
如果不加窗就直接进行FT的话会造成频谱泄露 (spectral leakage)
语音特征提取:分帧、加窗与傅里叶变换

本文介绍了语音特征提取的关键步骤,包括分帧、加窗和傅里叶变换。分帧是为了模拟人耳听觉,通常选取256-8192个采样点为一帧。傅里叶变换用于将时域信息转化为频域,但不加窗会导致频谱泄漏。加窗操作通过窗函数处理每一帧,消除不完整波形影响,确保信号周期性。
最低0.47元/天 解锁文章
6509





