基于神经声码器的单声道语音增强框架
1. 引言
近年来,深度学习的进步重塑了语音增强领域,使其从传统方法转向了监督学习。神经网络声码器逐渐崭露头角,例如语音增强生成对抗网络(SEGAN),它利用生成对抗网络(GANs)在语音增强方面取得了突破。神经网络在语音增强中的集成大致可分为两种不同的方法,主要基于语音信号的预处理。
传统上,语音增强主要集中在增强信号的幅度谱,同时保持相位谱的完整性。然而,这种传统方法存在固有的局限性。相位分量的随机性以及相位对语音质量的不可否认的影响,使得需要进行范式转变。这些限制在使用传统模型时常常导致语音失真。为了解决这些挑战,近期的研究探索了专注于增强复谱的策略,例如复比掩蔽(CRM)。此外,幅度和相位之间的复杂相互作用在幅度谱估计中引入了不确定性。因此,研究人员提出了一种替代方法:先增强幅度谱,然后细化复谱以缓解这些问题。
声码器在将语言和声学特征合成为语音波形方面起着关键作用。为了解决生成质量和速率相关的问题,我们选择了高采样、高保真的声码器HiFi - GAN。与其他公开可用的模型,如自回归(AR)卷积神经网络WavNet和基于Glow的模型WavGlow相比,HiFi - GAN表现出更优越的性能。
考虑到为模型训练选择清晰且独特的特征的重要性,显然幅度谱比时域波形或复谱提供了更结构化和视觉上更具吸引力的选择。受近期关于形成联合框架概念的研究启发,我们提出了一种创新方法。我们在梅尔频谱域中使用去噪自动编码器来增强幅度谱,并使用以梅尔频谱为输入的高保真对抗网络声码器来合成语音波形。然后将这两个组件组合起来,创建一个用于单声道语音增强的统一框架。
为了进一步优化这个框架,我们将这些组件叠加起来构建一个更深的
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



