深度学习语音处理:单通道分离与鲁棒特征探索
单通道语音分离实验成果
在单通道源分离问题上,循环网络,尤其是长短期记忆(LSTM)变体,相较于早期方法(如非负矩阵分解,NMF)极为有效。通过多种指标评估增强结果,发现分离质量有显著提升。其中,相位敏感损失函数在提高信号与失真比(SDR),特别是信号与干扰比(SIR)指标方面效果显著。在字错误率方面,相位敏感和幅度信号域损失产生的结果相近。
实验背景与结论
实验聚焦于从背景噪声中分离语音,背景噪声在现实客厅环境中录制,并模拟混合过程以实现客观测量。未来的研究方向应转向真实混合情况,并探索基于真实混合数据评估方法的途径。开发无需真实参考的评估指标也是值得期待的方向。当自动语音识别(ASR)准确率是最终目标时,可使用字错误率(WER)作为评估指标,但语音分离的目标并非局限于ASR,还包括提升人类通信的感知质量和可懂度,以及改善助听器等设备的分离效果。
不同网络架构的性能对比
| 网络架构 | 对噪声和失真的鲁棒性 | 对说话人归一化技术的依赖 | 性能特点 |
|---|---|---|---|
| DNN | 数据敏感,未见过的数据条件会严重影响性能 | 说话人归一化技术提升效果不显著 | 对于见过的数据条件,深层网络表现更好;浅层网络对未见过的数据条件相对更鲁棒 |
| CNN | 对噪 |
超级会员免费看
订阅专栏 解锁全文

10

被折叠的 条评论
为什么被折叠?



