
语音增强
文章平均质量分 94
Aidanmomo
这个作者很懒,什么都没留下…
展开
-
Joint Time-Frequency and Time Domain Learning for Speech Enhancement
对于单通道语音增强,基于时域的方法和基于时频域的方法各有优劣,本文提出了一种跨域框架,TFT-Net,该模型以时频谱作为输入,以时域波形信号作为输出。该方法利用了我们所掌握的关于频谱的知识,避免了T-F域方法存在的缺点。在TFT-Net中,我们设计了一个双路注意力块(DAB),以充分利用沿时间和频率轴的相关性。本文进一步发现,独立于样本的DAB(SDAB)在提高与语音质量和复杂性之间实现了良好的权衡。消融实验的结果表明,跨域设计和SDAB块对模型性能的提升帮助很大。典型的时频域方法如图1(a)所示,网络的原创 2022-06-12 15:25:10 · 1835 阅读 · 1 评论 -
DPT-FSNET: DUAL-PATH TRANSFORMER BASED FULL-BAND AND SUB-BAND FUSION NETWORK FOR SPEECH ENHANCEMENT
子带模型对谱图的局部模式建模方面取得了较好的结果。已有部分工作将子带信息和全带信息进行融合,以提升模型的性能。本文提出了一种基于transformer的双分支全带、子带融合网络(DPT-FSNet),用于频域的语音增强。模型的intra和inter部分分别对子带信息和全带信息进行建模。本文提出的方法所使用的特征比时域的双分支网络所使用的的特征更易解释。本文在Voice Bank+ DEMAND和Interspeech2020 Deep Noise Suppression数据集上进行了实验对比,实现了SOTA原创 2022-06-04 15:29:08 · 4433 阅读 · 0 评论 -
Teacher-Student Learning For Low-latency Online Speech Enhancement Using Wave-U-Net
文章目录ICASSP 20210. 摘要1. 简介2. Wave-U-Net for Speech Enhancement3. Proposed Online Low-latency Model3.1 Online Wave-U-Net3.2 Teacher-Student Learning for Knowledge Transfer4. 实验阶段4.1 Datasets4.2 Networks architectures and training settings4.3 实验结果ICASSP 202原创 2022-04-19 15:15:07 · 1947 阅读 · 0 评论 -
Neural Noise Embedding for End to End Speech Enhancement with Conditional Layer Normalization
文章目录ICASSP20210. 摘要1. 简介2. 模型方法2.1 Conditional Layer Normalization2.2 网络架构2.3 损失函数3. 实验3.1 实验步骤3.2 噪声嵌入向量的可视化3.3 实验结果ICASSP20210. 摘要为了应对各种复杂的噪声场景,本文引入了一种新的增强架构,它将深度自动编码器与神经噪声嵌入相结合。 在这项研究中,引入了一种新的归一化方法,称为条件层归一化 (CLN),以改进基于深度学习的语音增强方法对unseen environments原创 2022-04-16 20:53:40 · 3139 阅读 · 1 评论 -
Dynamic noise embedding: Noise aware training and adaptation for speech enhancement
文章目录0. 摘要1. 简介2. Proposed method2.1 Estimating confident noise frames2.2 Dynamic Noise Embedding3. Speech Enhancement Module4. Voice Activity Detection Module5. 实验步骤6. 结果分析6.1 DNE在SE模型中的有效性6.2 Finding optimal threshold for the DNE6.3 Expansion to other neu原创 2022-04-15 09:32:12 · 385 阅读 · 0 评论 -
Noise aware learning for speech enhancement
文章目录1. Noise prior knowledge learning for speech enhancement via gated convolutional generative adversarial network1.1 摘要1.2 语音增强生成对抗网络SEGAN1.3 本文提出的方法1.4 实验分析2. A noise prediction and time-domain subtraction approach to deep neural network based speech en原创 2022-04-14 16:49:31 · 302 阅读 · 0 评论 -
VARIATIONAL AUTOENCODER FOR SPEECH ENHANCEMENT WITH A NOISE-AWARE ENCODER
文章目录0. 摘要1. Introduction0. 摘要当前有许多噪声适应技术用于对语音增强的深度学习模型进行微调,从而适应噪声环境不匹配的问题。然而,对新环境的适应可能导致对之前学习环境的灾难性遗忘。本文提出了一种基于正则化的增量学习语音增强策略(regularization-based incremental learning SE, SERIL),在不使用额外存储的情况下补充了现有的噪声适应策略。通过正则化约束,参数被更新到新的噪声环境,同时保留了先前噪声环境的知识。1. Introduct原创 2022-04-12 20:35:19 · 2792 阅读 · 2 评论 -
Divide and Conquer: A Deep CASA Approach toTalker-Independent Monaural Speaker Separation
0. Abstract本文从深度学习和计算听觉场景分析(CASA)的角度解决与说话者无关的单通道语音分离问题。具体来说,本文将多说话人分离任务分解为同时分组(Simultaneous grouping)和顺序分组(sequential grouping)阶段。首先在每个时间帧中执行同时分组,其通过使用排列不变训练的神经网络分离不同说话者的频谱。在第二阶段,上一步得到的帧级分离频谱通过聚类网络顺序分组到不同的说话人。所提出的深度CASA方法依次优化了帧级分离和说话人跟踪,并在这两个目标上取得了很好的结果。.原创 2022-03-10 15:09:44 · 3576 阅读 · 0 评论 -
Wavesplit: End-to-End Speech Separation by Speaker Clustering
0. Abstract本文提出了一种端到端声源分离系统,Wavesplit。从混合语音中,模型推断每个声源的表示,然后根据每个声源的特征表示进一步估计声源,该模型经过训练,可以从原始波形中联合执行这两项任务。Wavesplit通过聚类推断一组声源的特征表示,其解决了声源分离的基本排列问题。在语音分离任务中,本文工作对长语音序列具有更加稳健的分离性能。本文模型在2人/3人纯净语音(WSJ0-2/3mix),以及带噪语音、混响语音数据集都获得STOA性能。1. Introduction设计的模型能够保持.原创 2022-03-08 17:04:36 · 3698 阅读 · 1 评论 -
Interactive Speech and Noise Modeling for Speech Enhancement
文章目录0. 摘要1. Introduction2. Related work2.1 Deep learning-based speech enhancement2.2 Noise-aware speech enhancement2.3 Two-Branch neural network2.4 Self-Attention model3. Proposed Method3.1 Overview3.2 Encoder and Decoder3.3 RA Block3.4 Interaction Module原创 2022-01-03 15:33:57 · 2541 阅读 · 0 评论 -
DCCRN+: Channel-wise Subband DCCRN with SNR Estimation for Speech Enhancement
文章目录0. 摘要1. Introduction2. DCCRN+2.1 The new design2.2 Subband Processing2.3 Complex TF-LSTM Block2.4 Convolution Pathway2.5 SNR Estimator2.6 Post-Processing2.7 Loss Functio:3. Experiments3.1 Datasets3.2 Training setup and baselines3.3 Experimental results原创 2021-12-29 16:05:42 · 3129 阅读 · 0 评论 -
DCCRN:Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement
文章目录0. 摘要1. Intorduction1.1 Related work1.2 Contributions2. The DCCRN Model2.1 Convolution recurrent network architecture2.2 Encoder and decoder with complex network2.3 Training target2.4 Loss function3. Experments3.1 Datasets3.2 Training setup and baselin原创 2021-12-28 17:05:43 · 2596 阅读 · 0 评论