深度学习语音识别中的鲁棒特征研究
1. 鲁棒特征提取方法
1.1 NMC 特征提取
NMC(Normalized Modulation Cepstral)特征提取从语音窄带信号开始,其核心在于估计的 AM 信号对噪声具有鲁棒性。具体步骤如下:
1. 预加重 :使用预加重滤波器对语音信号进行处理。
2. 加窗分析 :采用 26ms 的 Hamming 窗,以 10ms 的帧速率对信号进行分析。
3. 滤波处理 :将加窗后的语音信号 sw[n] 通过一个 40 通道的 gammatone 滤波器组,频率范围为 200 - 7500Hz(针对 16kHz 信号)。
4. AM 信号获取 :使用修改后的 DESA 算法,为每个通道获取 AM 时间信号 ak;j[n]。
5. 归一化与去偏 :对 AM 功率进行归一化,然后使用类似方法进行去偏处理。
6. 功率压缩 :对去偏后的 AM 功率谱进行 15 次根功率压缩,得到的结果即为 NMC 特征集。
1.2 MMeDuSA 特征提取
MMeDuSA(Modulation of Medium Duration Speech Amplitudes)特征提取基于简化的瞬时 AM 信号估计方法,具体步骤如下:
1. 预加重与加窗 :对语音信号进行预加重,然后使用 51ms 的 Hamming 窗,以 10m
超级会员免费看
订阅专栏 解锁全文

1507

被折叠的 条评论
为什么被折叠?



