语音增强与口音转换技术:突破与创新
语音增强框架的性能评估
在语音增强领域,一种结合卷积网络和神经网络声码器的方法备受关注。该方法采用了联合架构,包含去噪网络和基于生成对抗网络(GAN)的语音增强方法。
在不同噪声类别的实验中,与OMLSA基线相比,使用α = 0和SI - SNR损失函数在四种噪声类别(如KITCHEN和BUS噪声类)中,PESQ分别提升了1.35、0.71、0.69和0.41,平均提升0.64分。
联合框架在多种指标上超越了传统的语音增强方法,如OMLSA、SEGAN和频谱掩码模型。不过,使用复杂网络的DCCRN - E在CBAK估计方面略优于该模型。
在损失函数的比较中,当用于LS时,SI - SNR损失函数比STFT损失函数略具优势。从评估结果来看,使用权重系数为0(SI - SNR和STFT损失函数联合)时,两种损失函数评估的差异分别为0.25、0.02(2%)、0.28和0.18,这明显体现了对信噪比的重视。
基于语音的损失函数LS和基于特征梅尔频谱的损失函数LM在模型训练中都能取得积极效果。值得注意的是,权重系数为0在联合训练中表现最佳。比较权重系数α为0、0.5和1的结果,LS损失函数权重越高,各项指标的提升越明显,这表明基于语音的损失函数与语音质量的相关性更强。
Voice Bank + DEMAND数据集的评估结果
在Voice Bank + DEMAND数据集上,对各模型增强语音的平均得分进行了计算和比较。使用SI - SNR损失函数的模型设置在之前的实验中表现出优越性能。
| 模型 </ |
|---|
超级会员免费看
订阅专栏 解锁全文
69

被折叠的 条评论
为什么被折叠?



