【论文翻译】CP-GAN: CONTEXT PYRAMID GENERATIVE ADVERSARIAL NETWORK FOR SPEECH ENHANCEMENT

论文阅读:CP-GAN: CONTEXT PYRAMID GENERATIVE ADVERSARIAL NETWORK FOR SPEECH ENHANCEMENT

  • 时间:2020
  • 关键词:语音增强、CP-GAN

abstract

本文之前,Gan在语音增强领域的运用 基本都是借鉴其在CV中的架构,没有根据音频特征(即 不同粒度上下文)对语音增强进行特定设计,这可能会在某些片段中留下噪声点或干扰原始音频的内容。

在本文工作中,首次尝试探索从粗到细的语音增强的全局和局部语音特征,并引入了上下文金字塔生成对抗网络(CP-GAN),其中包含一个密集连接的特征金字塔生成器和一个动态上下文粒度鉴别器,以更好地分层消除音频噪声。
大量实验表明,我们的 CP-GAN 有效地实现了最先进的语音增强结果,并提高了包括自动语音识别和说话人识别在内的更多高级语音任务的性能。

1、介绍

最近,生成对抗网络 (GAN) [5] 提出了一种新的语音增强范式 [6, 7],其中生成器的目标是合成与原始嘈杂语音的内容相匹配的令人信服的语音,并且可以使用鉴别器最小化干净语音信号和增强语音信号分布之间的差异。开创性的工作 SEGAN [6] 在以端到端方式接收原始音频数据时直接训练模型,并获得显着的性能提升。 已经探索了用于语音增强的其他 GAN 变体以构建不同的生成器结构 [8] 或利用其他对抗性损失 [7]。

然而,这些基于 GAN 的方法直接将图像合成任务的架构应用于语音增强,而无需对语音信号进行特定修改。例如,全局话语级上下文可以为整体语音解释提供良好的描述,而局部补丁级特征对噪声干扰更敏感。以前的工作没有很好地利用这种音频特性来改善语音增强。

在本文中,我们首先努力研究充分利用全局和局部语音特征来更好地分层消除音频噪声。我们引入了一个上下文金字塔生成对抗网络,用于从粗到细(全局到局部)的语音增强,称为 CP-GAN,它由一个密集连接的特征金字塔生成器和一个动态上下文粒度鉴别器组成。此外,之前的方法(如 SERGAN [7])使用判别器的固定长度输入来从全局角度引导生成器,这很可能会忽略整个音频的某些片段中的噪声点。为了应对这一挑战,我们提出了一个动态上下文粒度鉴别器模块,该模块包含一个以整个音频为输入的全局鉴别器和一个以随机比例音频片段为输入的局部鉴别器,它可以利用上下文的动态粒度来确定语音质量。

本文贡献总结:
1. 我们提出了一种新的上下文金字塔生成通用网络(CP-GAN)用于语音增强,由密集连接的特征金字塔生成器和动态上下文粒度鉴别器组成
2. 实验结果表明,我们的 CP-GAN 优于所有基于 GAN 的方法,并在语音增强方面达到了最先进的性能。
3. 为了进一步评估我们的方法,我们基于增强的音频进行了自动语音识别和说话人识别的实验,这也证明了我们用于语音增强的 CP-GAN 能够提升高级语音任务。

2、使用GAN进行语音增强

最近,生成对抗网络 (GAN) 在许多具有挑战性的任务中取得了巨大成功,例如图像翻译 [11]、超分辨率 [12] 和语音增强 [6]。GAN 中有两个重要组件:生成器 (G) 和鉴别器 (D),其中 G 的作用是将样本 z 从一个先验分布 Z 映射到另一个分布 X 的样本 x,D 旨在识别样本是否 是生成的。G 试图生成尽可能真实的样本来欺骗 D,而 D 则最大程度地拒绝欺骗。 通过不断玩这个极小极大游戏直到达到纳什均衡,G 可以生成相当逼真的样本 。

条件 GAN(CGAN)通常用于增强退化的语音。 在 CGAN 中,G 旨在通过最小化以下目标将嘈杂的语音信号 y 映射到相应的干净语音信号 x:
LossCGAN(G)=−Ey[logD(G(y),y)]+∥G(y)−x∥ Loss_{CGAN}(G) = -\mathbb{E} _y[logD(G(y),y)] + \|G(y)-x\| LossCGAN(G)=Ey[logD(G(y),y)]+G(y)x
D 的目标是通过最小化以下损失函数来区分真实数据和生成数据:
LossCGAN(D)=−ExlogD(x,y)−Ey[log(1−D(G(y),y)] Loss_{CGAN}(D) = -\mathbb{E}_x{logD(x,y)} - \mathbb{E}_y[log(1-D(G(y),y)] LossCGAN(D)=ExlogD(x,y)E

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

染阳

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值