基于任务自适应生成对抗网络的语音去混响技术助力鲁棒语音识别
1. 引言
在室内环境,如会议室、教室或大型礼堂中,声音会遇到众多障碍物和表面。当声波与这些表面相互作用时,会经历一系列反射和延迟,从而产生混响现象。混响不仅会使原始语音信号变得模糊,还会降低语音的可懂度,这在远场语音识别中尤为突出,因为麦克风与说话者距离较远,导致语音识别准确率下降。
为了减轻混响的影响,人们提出了各种语音去混响算法,大致可分为基于信号处理的技术和基于深度学习的技术:
- 基于信号处理的技术 :如基于后期混响的谱减法、卡尔曼滤波算法等。
- 基于深度学习的技术 :包括深度神经网络(DNNs)、卷积神经网络(CNNs)、循环神经网络(RNNs)、卷积循环神经网络(CRNN)和生成对抗网络(GANs)等。
近年来,基于深度学习的语音去混响取得了显著成功,但现有方法在语音识别中的应用仍面临挑战。这些方法主要侧重于通过减少混响来提高语音质量,使语音听起来更自然,但语音去混响和语音识别的目标存在显著差异。去混响方法得到的特征可能与语音识别系统训练的声学模式不匹配,从而影响识别性能。
为了填补前端去混响模块和后端识别系统之间的差距,我们提出了一种基于任务自适应生成对抗网络(Task-adaptive GAN)的语音去混响模型。
2. 传统生成对抗网络(GAN)
生成对抗网络(GAN)是深度学习领域,特别是生成建模领域的一项重大突破。它通常由生成器网络和判别器网络两个关键组件组成。
在GAN的最小 - 最大对抗游戏中,判别器网络负责评估接收
超级会员免费看
订阅专栏 解锁全文
976

被折叠的 条评论
为什么被折叠?



