自用学习论文之实时语音增强和动态注意力跨度

budangdiyi

已于 2023-10-12 23:00:05 修改

阅读量269

点赞数

文章标签：人工智能论文阅读论文笔记学习

于 2023-10-12 16:57:10 首次发布

本文链接：https://blog.youkuaiyun.com/budangdiyi/article/details/133789288

版权

第一章语音增强之《REAL-TIME SPEECH ENHANCEMENT WITH DYNAMIC ATTENTION SPAN》
实时语音增强和动态注意力跨度

文章目录

前言
一、做了什么
二、动机
三、挑战
四、方法
五、实验评价
- 1.数据集
- 3.客观评价
六、结论
七、知识小结

前言

语音新手入门，学习读懂论文。
本文作者机构是中国传媒大学和微软亚洲研究院
在这里插入图片描述

一、做了什么

提出了一种根据输入信号自适应改变接收野的方法。具体而言，在编解码器框架中，在所有注意模块中引入了动态注意广度机制，以控制用于处理当前帧的历史内容的大小。

二、动机

实时SE要求因果关系、有限的内存使用和较低的计算复杂度。由于麦克风记录的音频信号的时变特性限制了系统只能从有限的历史信息中捕捉时变特征，因此对实时SE来说，时变特性是一个严峻的挑战。

三、挑战

以往的模型不能明确地捕获时变特征，包括环境干扰和语音相关特征。

四、方法

1.模型图

在这里插入图片描述
每个编码器包含四个二维因果卷积层。
解码器由四个门控块组成，但最后具有因果卷积和一个额外的二维因果卷积层。除解码器的最后一层外，其余所有卷积层后面都是BN和PReLU。
时间卷积模块(TCM)是一种在时域上进行卷积操作的模块，常用于处理时间序列数据。

2.DKG模块

在这里插入图片描述
不可分离的DKG，内核直接由一个映射生成，将输入特征TxF’C，分成F个集合，使用一维卷积核，卷积为MxC，最后串联起来，得到核K。
可分离DKG，内核是使用两个分离的映射生成的，其中一个映射生成通道共享过滤器K0，另一个映射生成与通道相关的权重k，然后按元素乘以K0。

3. Problem Formulation问题公式化

在这里插入图片描述
时变麦克风信号y(t)，近端语音信号s(t)由传声器经声路h1(t)记录。近端扬声器播放的参考信号x(t)得到非线性失真fNL，例如扬声器和可能的处理失真，并通过声回波路径h2(t)记录。∗表示卷积，∆t是参考信号和麦克风信号之间的时变延迟，h1(t)和h2(t)为房间脉冲响应(RIR)，n(t)为加性噪声。
在本文中，NS任务的目标是去除n(t)， AEC任务的目标是去除x(t)产生的回波，去噪任务的目标是去除h1(t)产生的早反射和晚反射。

4.TA合并模块

由于参考信号和麦克风信号之间的时间偏差，引入了两个信号之间的时间注意(TA)来明确捕获它们之间的相互关系，并将来自双路径的特征合并为一个。

5.重复模块

重复模块包含定义的TCM和定义的GTSA模块
TCM模块是时间卷积模块
GTSA模块根据当前的输入音频片段和其上下文信息，计算注意力权重，以决定哪些部分对于生成增强声音更重要。动态调整注意力跨度可以使模型更好地适应不同长度的噪声和语音段落，从而提高增强效果。

6.DAS Mechanism（DAS机制）

在所有注意模块(TA合并和GTSA)中引入DAS机制
在这里插入图片描述
Xt是前一个重复模块的输出特征。
Tw设置为100。
R是一个超参数，用于控制软化程度，超参数R设置为2。
mz（t，r）；t≥r为DAS注意值。
st，r表示Q向量在第t帧处与K向量在第r帧处的相似度得分。
at，r为Softmax操作后的注意力得分。

五、实验评价

1.数据集

合成了1166.7小时的音频样本用于训练，9.7小时用于验证，使用Interspeech 2021 DNS挑战赛的语音和噪声以及Interspeech 2021 AEC挑战赛的rir。
对于AEC任务，我们使用消融研究的合成测试集[13]和AEC挑战赛ICASSP 2022[18]的真实记录盲测集。对于NS任务，使用了来自DNS挑战赛ICASSP 2022的Track-1非个性化DNS盲测集的738个标记为“Primary”的片段。

3.客观评价

在这里插入图片描述

(1) 在所有时变情况下，Baseline-TA在ERLE度量上都显著优于Baseline-Cat，表明TA合并模块有助于模型更好地去除时变回波。
(2) 在Baseline-TA的基础上，将DAS引入TA合并模块会略微提高ERLE和PESQ。
(3) GTSA-DAS模型在ERLE上保持了基线- ta的稳定改进，并显示出更好的PESQ。
(4) 在所有模型中，all - dasx模型在所有情况下的ERLE都最大，而PESQ较GTSA-DAS模型有所下降。这些结果表明，同时将DAS引入TA和GTSA可以显著改善回声消除，但简单地将DASenabled TA和GTSA级联可能无法达到各自在AEC任务中保持语音质量的优势。
GTSA-DAS可以自动调节不同通道的感受野。