语音增强-频谱映射

一、引言

  语音增强的主要目标是从含噪语音信号中提取纯净语音信号,在自动语音识别、助听器中有着 广泛的应用。深度语音增强方法可分为两大类:1) 基于映射的语音增强方法; 2) 基于掩模的语音增强方法。

二、基于映射的语音增强方法

  基于映射的语音增强方法按不同的域(时域/频域)处理,可分为两大类:
    1) 基于频谱映射的语音增强方法:通过神经网络学习含噪语音信号频谱到干净语音信号频谱之间的映射关系。
    2) 端到端语音增强方法:通过神经网络学习含噪语音信号时域波形到干净语音信号时域波形之间的映射关系。

2.1 频谱映射系统模型

  频谱映射系统模型如下图所示,

  语音特征提取时域重构具体流程如下所示,

  训练阶段:
    1) 输入:本文实验采用的输入特征为带噪语音信号对数幅度谱。值得注意的是,参照文献[1]采用扩帧技术,如输入5帧对数幅度谱数据时,网络输出为预测的第3帧对数幅度谱数据,如下图所示。

    2) 标签:为干净语音信号的对数幅度谱,如当输入5帧对数幅度谱数据时,输出为预测的第3帧对数幅度谱数据。
    3) 损失函数:MSE损失函数, L Loss  = ∥ L ^ − L ∥ 2 2 L_{\text {Loss }}=\|\hat{\mathbf{L}}-\mathbf{L}\|_{2}^{2} LLoss 

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值