23、语音增强与口音转换技术:突破与创新

语音增强与口音转换技术:突破与创新

语音增强框架的性能评估

在语音增强领域,一种结合卷积网络和神经网络声码器的方法备受关注。该方法采用了联合架构,包含去噪网络和基于生成对抗网络(GAN)的语音增强方法。

在不同噪声类别的实验中,与OMLSA基线相比,使用α = 0和SI - SNR损失函数在四种噪声类别(如KITCHEN和BUS噪声类)中,PESQ分别提升了1.35、0.71、0.69和0.41,平均提升0.64分。

联合框架在多种指标上超越了传统的语音增强方法,如OMLSA、SEGAN和频谱掩码模型。不过,使用复杂网络的DCCRN - E在CBAK估计方面略优于该模型。

在损失函数的比较中,当用于LS时,SI - SNR损失函数比STFT损失函数略具优势。从评估结果来看,使用权重系数为0(SI - SNR和STFT损失函数联合)时,两种损失函数评估的差异分别为0.25、0.02(2%)、0.28和0.18,这明显体现了对信噪比的重视。

基于语音的损失函数LS和基于特征梅尔频谱的损失函数LM在模型训练中都能取得积极效果。值得注意的是,权重系数为0在联合训练中表现最佳。比较权重系数α为0、0.5和1的结果,LS损失函数权重越高,各项指标的提升越明显,这表明基于语音的损失函数与语音质量的相关性更强。

Voice Bank + DEMAND数据集的评估结果

在Voice Bank + DEMAND数据集上,对各模型增强语音的平均得分进行了计算和比较。使用SI - SNR损失函数的模型设置在之前的实验中表现出优越性能。

模型 </
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值