单通道语音分离的深度循环网络研究
在语音处理领域,单通道语音分离和增强是重要的研究方向。本文将围绕相关的损失函数、网络输入、实验结果等方面展开介绍。
不同掩码下的SDR结果
在CHiME - 2开发数据的左声道上,不同信噪比(SNR)水平下使用各种理想掩码的源失真比(SDR)结果如下表所示:
| dev | -6 dB | 9 dB | Avg |
| — | — | — | — |
| IBM | 14.56 | 20.89 | 17.59 |
| IRM | 14.13 | 20.69 | 17.29 |
| Wiener - like | 15.20 | 21.49 | 18.21 |
| Ideal amplitude | 13.97 | 21.35 | 17.52 |
| Phase - sensitive filter | 17.74 | 24.09 | 20.76 |
| Truncated PSF | 16.13 | 22.49 | 19.17 |
从这些数据中,我们可以初步看出不同掩码在不同信噪比下的性能表现,例如相位敏感滤波器在平均SDR上表现较好。
损失函数
在训练用于源分离或语音增强的深度学习系统时,可以考虑多种损失函数。
1. 直接预测幅度谱的损失函数
- 均方误差损失(DMSE) :
[DMSE(w) = \sum_{t,f} \left| |X(t,f)| - O_{Xw}(t,f) \right|^2]
-
超级会员免费看
订阅专栏 解锁全文
8187

被折叠的 条评论
为什么被折叠?



