自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 【语音增强论文解读 08】S-DCCRN: SUPER WIDE BAND DCCRN WITH LEARNABLE COMPLEX FEATURE FORSPEECH ENHANCEMENT

动机:大多数最近的语音增强方法主要集中在采样率为 16K Hz 的宽带信号上。然而,由于难以对更多频段特别是高频分量进行建模,因此仍然缺乏对超宽带(例如,32K Hz)甚至全频段(48K)去噪的研究。方法:提出了两个轻量级 DCCRN 子模块,分别用于子带和全带 (SAF) 建模,采用子带处理模块分别对低频段和高频段进行建模。应用全频带处理模块来平滑不同频带的边界。在模型中引入了可学习的频谱压缩(LSC),可以动态调整不同频段的能量。LSC 的使用导致高频段上的图案更加清晰,并且此更新带来了 0

2022-05-06 17:23:06 788

原创 【语音增强论文解读 07】基于UFORMER的单通道语音增强和去混响

作者:Yihui Fu, Yun Liu, Jingdong Li, Dawei Luo, Shubo Lv, Yukai Jv, Lei Xie1.动机近年来,研究者开始尝试采用复数谱,对输入语音频谱的实部和虚部同时进行建模,能够获得更高的理论上限,从而逐渐成为研究的热点方向。但此前的工作没有对这两个域的特征进行联合优化以发掘其潜在的内部联系。由于空间信息的丢失,在单通道场景下的语音去混响充满了挑战。另一方面,从Transformer模型进化而来的Conformer模型因其强大的时...

2022-04-25 11:52:22 1416

原创 [语音增强论文解读 06】Real-time Monaural Speech Enhancement WithShort-time Discrete Cosine Transform

作者:Qinglong Li, Fei Gao, Haixin Guan, and Kaichi Ma1. 动机最近,一些研究提出了复值模型并实现了最先进的性能,例如深度复杂卷积循环网络(DCCRN)。但是,模型的计算量很大。2. 方法为了降低复杂度并进一步提高性能,在本文中提出了一种使用离散余弦变换作为输入的新方法,称为深度余弦变换卷积循环网络(DCTCRN)。3. 模型DCTCRN 模型如下图所示:3.1 训练目标在训练阶段,DCTCRN 使用信号逼近方法来估计理想余

2022-04-18 20:49:54 912

原创 【语音增强论文解读05】FULLY CONVOLUTIONAL RECURRENT NETWORKS FOR SPEECH ENHANCEMENT

作者:Maximilian Strake Bruno Defraene Kristoff Fluyt Wouter Tirry Tim Fingscheidt1. 动机在CRN中通过在卷积编码器和解码器之间集成了LSTM,在这样的结构中,对于完全连接的LSTM,必须放弃特征映射中内部表示的组织和对卷积映射的局部结构的关注。由于LSTM输入的特征空间维度,CRN可能会受到限制。2. 方法使用卷积的LSTM代替CRN中完全连接的LSTM,由此产生的网络称为FCRN...

2022-04-13 22:47:46 2778

原创 【语音增强论文解读04】DCCRN+: Channel-wise Subband DCCRN with SNR Estimation for SpeechEnhancement

作者:Shubo Lv, Yanxin Hu, Shimin Zhang, Lei Xie文末附文章地址和开源代码地址1.动机对DCCRN做了进一步的更新(有不了解DCCRN的小伙伴可以看我先前的文展)。2.方法1.将模型扩展到子带处理。2.用TF-LSTM代替LSTM。3.使用卷积块聚合编码器的输出,然后再送到解码器。4.为解码器制定一个先验SNR估计模块,再去除噪声的同时保持良好的语音质量。...

2022-04-11 21:58:16 3176

原创 【语音增强论文解读 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

作者:Ashutosh Pandey and DeLiang Wang文末附文章地址及其开源代码地址1.动机尽管使用 T-F 表示是最流行的方法,但它也有一些缺点。首先,这些方法通常忽略干净的相位信息,并使用噪声相位进行时域信号重建。2.方法受成功实现用于序列建模的 TCNN 以及基于编解码器架构的时域语音增强的有效性的启发,建议将它们结合起来以获得实时增强系统。所提出的模型具有基于编码器-解码器的架构,该架构由因果卷积层组成。在编码器和解码器之间插入一个...

2022-04-05 11:13:08 4489

原创 【语音增强论文解读 02】DCCRN: Deep Complex Convolution Recurrent Network for Phase-AwareSpeech Enhancement

作者:Yanxin Hu,Yun Liu,Shubo Lv,Mengtao Xing,Shimin Zhang,Yihui Fu,Jian Wu,Bihong Zhang, Lei Xie文末附论文地址及其开源代码地址1. 动机卷积循环网络(CRN)集成了卷积编码器-解码器(CED)结构和长短期记忆(LSTM),已被证明有助于复杂目标,为了更有效地训练复杂目标,在本文中提出了一种新的网络结构称为深度复杂卷积循环网络(DCCRN)。2. 方法...

2022-04-03 22:15:01 5748 1

原创 【语音增强论文解读 01】 A Convolutional Recurrent Neural Network for Real-Time SpeechEnhancement

作者:Ke Tan, DeLiang Wang文末附文章地址与开源代码地址1. 动机语音增强的许多实际应用,如助听器和人工耳蜗都需要无延迟或低延迟的实时处理、2. 方法受CRN工作的启发,开发了一种全新的CRN架构,用于实时进行与噪声和说话者无关的语音增强。CRN 结合了因果卷积Encoder-Decoder和LSTM。在实时处理中,语音增强框架不能利用未来帧的语音,所以采用了因果卷积的Encoder-Decoder。使用LSTM的主要目的是处理噪声泛化和说话人泛化。3. 网络架构

2022-03-30 21:43:00 3098

原创 01 Conv-TasNet论文分享

题目:Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation 文末附文章地址与开源代码地址动机:单通道、与说话人无关的语音分体方法的准确性、延迟、计算成本不足,时频描述分离问题的几个问题,如信号相位和幅度的解耦, 语音分离的时频表示的次优性, 以及计算光谱图的长延迟。...

2022-03-28 23:09:42 1946 1

原创 故事从此开始

      打算在优快云上记录下自己的论文学习过程,正好看见官方的投稿活动,在此之前没写过任何博客,也正好借此机会尝试下。1.你来自哪里?来优快云想收获什么?      来自于国内的普通211学校,目前研一,研究方向是语音信号处理方向,为什么选择这个方向?当初选导师也没有仔细选择方向,问了问学长,选了个好的导师,导师的主要研究方向是语音信号处理,也就跟着导师学习,自然研究方向也就是

2022-03-28 22:02:31 318 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除