基于子带时间包络特征提升语音感知质量与可懂度
1. 引言
在现实的语音相关应用中,语音信号常受到环境噪声污染,致使应用系统功能受损。过去几十年里,深度神经网络(DNN)模型在语音增强(SE)领域展现出强大性能。相较于传统增强方法,基于DNN的方法具备更卓越的处理能力,尤其在低信噪比(SNR)场景和非平稳噪声环境中表现出色。
基于DNN的SE模型通常以增强语音与干净语音的波形或频谱图逐点差异作为目标函数,如L1和L2损失。然而,众多研究表明,常用损失函数存在局限性,可能导致增强语音出现伪影或感知质量不佳的问题。
为优化语音信号的感知质量,目前有两种常见策略:
- 引入辅助损失 :计算干净语音与增强语音特定参数的差异,常用特征参数包括现有感知指标的可微估计器和声学模型生成的语音表示。但这些参数与人类感知的相关性有限,优化效果也受到限制,且基于客观感知指标的辅助损失并不能提升语音可懂度。
- 结合领域知识直接优化 :如使用感知驱动的滤波器组模拟人类听觉系统对信号的调整,或基于感知理论直接优化模型。不过,这些方法仅提供隐式监督,未针对特定特征,且受领域特定知识的影响,性能提升和应用范围受限。
近年来,结合声学参数优化DNN性能取得了一定进展。例如,尝试使用与音色相关的统计特征,如倒谱统计量和梅尔频率倒谱系数(MFCC)的标准差作为感知损失函数来优化SE模型;应用基频(F0)、能量轮廓、音高轮廓和说话人身份来表示音高、响度和音色元素以优化感知质量。但这些研究使用的特征仅占任务考虑特征的一小部分。为更好地利用基于声学参数的优化策略,研究者采用了eGeMAPS特征集,并通过标准英
超级会员免费看
订阅专栏 解锁全文
37

被折叠的 条评论
为什么被折叠?



