联合时域和频域渐进学习用于语音增强与识别
1. 融合模块
融合模块连接渐进频域掩蔽模块和渐进混合域模块。具体操作流程如下:
1. 融合模块接收渐进频域掩蔽模块估计的掩蔽 $M_{FPL}^i$ 以及带噪语音 $y$ 的频谱和相位,通过逆短时傅里叶变换(ISTFT)得到重构语音 $\hat{y} {FPL}^i$。
2. 将 $\hat{y} {FPL}^i$ 输入到渐进混合域模块,融合时域和频域的信息,得到预测波形 $\hat{y} {MPL}^i$。
3. 提出一种新的融合策略,结合渐进频域掩蔽模块和渐进混合域模块的输出,以进一步利用不同域信息的互补性:
- $LPS {fusion}^i = \lambda * FLPS(\hat{y} {MPL}^i) + (1 - \lambda) * FLPS(\hat{y} {FPL}^i)$
- $\hat{y} {fusion}^i = FReconst {LPS}(\hat{y} {MPL}^i, LPS {fusion}^i, W_{istft})$
其中,通过加权融合方法获得融合的对数功率谱(LPS)特征 $LPS_{fusion}^i$,权重参数 $\lambda$ 范围是 0 到 1。函数 $FReconst_{LPS}(·)$ 表示基于 LPS 特征和 $\hat{y} {MPL}^i$ 的相位进行波形重构,$\hat{y} {fusion}^i$ 表示通过融合策略得到的波形。
2. 多目标损失
采用多任务学习方法来训练 TF
超级会员免费看
订阅专栏 解锁全文
25

被折叠的 条评论
为什么被折叠?



