- 博客(14)
- 问答 (1)
- 收藏
- 关注
原创 CONTINUAL SELF-TRAINING WITH BOOTSTRAPPED REMIXING FOR SPEECH ENHANCEMENT
题目:CONTINUAL SELF-TRAINING WITH BOOTSTRAPPED REMIXING FOR SPEECH ENHANCEMENT时间:2021.10作者:Efthymios Tzinis1,∗, Yossi Adi2, Vamsi K. Ithapu3, Buye Xu3, Anurag Kumar3机构:University of Illinois at Urbana-Champaign, 2Facebook AI Research, 3Facebook Reality La
2021-12-23 20:22:46
1680
1
原创 声纹识别
声纹识别在一个时间序列中,如何把弱信息提取出来频谱特征中声纹信息和音素信息是否混合在一起的?利用音素的信息来指导做一个软对齐来做一个x-vectorY是说话人模型,I关系矩阵是隐变量。忽略了embeding和周围节点之间的拓扑关系...
2020-11-23 17:28:07
228
原创 Deep Embedding Learning for Text-Dependent Speaker Verification
Deep Embedding Learning for Text-Dependent Speaker Verification作者:Peng Zhang, Peng Hu, Xueliang ZhangINTERSPEECH 2020October 25–29, 2020, Shanghai, China解决的问题为说话人验证提出了一种有效的深度嵌入学习架构。创新点相比于ResNet和TDNN,我们做了俩点改进使用全连接网络编码说话人的短时文本信息提出使用双向注意力池化机制建模长时文本信
2020-11-23 15:43:52
278
原创 TRAINING SUPERVISED SPEECH SEPARATION SYSTEM TO IMPROVE STOI AND PESQ DIRECTLY
TRAINING SUPERVISED SPEECH SEPARATION SYSTEM TO IMPROVE STOI AND PESQ DIRECTLY解决的问题:提出使用梯度近似的方法来计算STOI和PESQ
2020-11-22 14:37:24
198
原创 有监督的语音分离系统
监督性语音分离分为以下五步:时频分解:利用信号处理方法(短时傅里叶变换或者听觉滤波器组)把输入的时域信号分解为二维的时频信号表示特征提取:提取帧级别或者时频单元级别的声学特征分离目标:常用的语音分离目标主要分为时频掩蔽的目标、目标语音幅度谱估计的目标和隐式时频掩蔽目标模型训练:, 利用大量的输入输出训练对通过机器学 习算法学习一个从带噪特征到分离目标的映射函数,波形合成:利用估计的分离目标以及混合信号, 通过逆变换,(逆傅里叶变换或者逆 Gammatone 滤波) 获得目标语音的波形信号..
2020-11-22 11:20:13
359
原创 端到端的语音识别建模
端到端语音识别的输入和输出输入:主流的输入特征是fbank.一些论文中也用MFCC以及raw waveform.fbank特征的处理过程一般是对一段语音进行进行预加重、分帧、加窗、短时傅里叶变换、mel滤波、去均值等。一个fbank向量往往对应10ms的语音。输出:可以是字母,子词,词等等,目前以子词(subword)当作输出比较流行。...
2020-11-21 17:53:07
464
原创 On Convolutional LSTM Modeling for Joint Wake-Word Detection and Text Dependent Speaker Verification
On Convolutional LSTM Modeling for Joint Wake-Word Detection and Text Dependent Speaker Verification作者:Rajath Kumar1, Vaishnavi Yeruva2, Sriram Ganapathy2解决的问题将个性化关键字检测和依赖文本的的说话人识别使用卷积长短时记忆网络模型结合在一个系统中,初始的卷积特征映射由LMST循环网络进一步处理数据集使用WSJ和 LibriSpeech co
2020-11-20 15:52:13
134
原创 A Regression Approach to Speech Enhancement Based on Deep Neural Networks
A Regression Approach to Speech Enhancement Based on Deep Neural Networks题目:A Regression Approach to Speech EnhancementBased on Deep Neural Networks作者:Yong Xu, Jun Du, Li-Rong Dai, and Chin-Hui Lee,github:解决的问题提出了一种有监督的语音增强,通过找到一个基于DNN 的噪声和干净语音之间的映射
2020-11-20 12:14:23
613
原创 Learning Complex Spectral Mapping with Gated Convolutional Recurrent Networks for Monaural Speech En
Learning Complex Spectral Mapping with Gated Convolutional Recurrent Networks for Monaural Speech Enhancementabstract相位对于语音质量很重要,然而,通过监督学习直接估计相位很难,由于缺少时间谱结构。复数谱映射的目标是从噪音中估计干净语音的实部和虚部。同时提高语音的幅度和相位相应。受多任务学习的启发,我们为复数谱映射提出了一个门控卷积循环神经网络,为单通道语音增强构成因果系统。实验结果表明
2020-11-19 21:25:20
423
原创 关键字唤醒
关键字唤醒一、将预训练的语音增强模型和关键字检测模型连接起来形成一个复杂的系统,整个模型使用联合训练的方法,关键字检测系统包含的语言学信息可以通过反向传播的方法传递给增强模型。二、采用基于联合训练框架的CNN-MelCRN32三、设计了特征转换模块,将输入特征从能量谱转换为梅尔谱,有效的减少了计算量基于端到端的关键词检测系统:将待识别的语音直接输入模型,输出是待识别的关键字或非关键字,模型通常包括三个部分:特征提取模块,神经网络模块和输出后验得分的计算模块。识别阶段,关键字检测系统首先对输入语音按
2020-11-15 11:19:11
790
原创 A Convolutional Recurrent Neural Network for Real-Time Speech Enhancement
A Convolutional Recurrent Neural Network for Real-Time Speech Enhancement文章:A Convolutional Recurrent Neural Network for Real-Time Speech Enhancement作者:Ke Tan, DeLiang Wanggithub:ABSTRACT现实生活中许多语音增强的应用都需要实时处理,没有或者低延迟,例如助听器和人工耳蜗。本文提出了CRN解决单通道语音增强。我们把CE
2020-11-14 21:57:33
1731
原创 imagefolder用法
imagefolder用法ImageFolder(root, transform=None, target_transform=None, loader=default_loader)用它的前提是假设所有图片按文件夹路径保存,文件夹名为类名。root:在指定路径下寻找图片transform:输入是使用loader读取图片的返回对象target_transform:对label的转换loader:默认读取为RGB格式torchvision.transforms.Compose()用法主要功能
2020-11-09 17:17:36
827
原创 pytorch学习笔记(二)
pytorch中的所有网络都叫做类,子类化.nn模块,实现-init-和method,在-init-模块中,初始化网络层,在forword模块中,输入数据,返回输出结果。父类作为参数传递到参数名中,-init-是构造函数。super将子类中的参数传递到父类中。基于你要解决的问题确定你的最后一层。回归问题,使用线性层,比如预测一件衣服的价格分类问题,使用sigmod激活函数,比如要分辨是不是某件东西,输出为0或1,也叫二分类问题多分类问题,使用softmax层作为神经网络的结尾,输出为对应的概率。
2020-11-07 08:45:30
186
1
原创 pytorch学习笔记(一)
训练一个网络需要以下几步:构建数据集建立网络架构使用损失函数来评估模型使用优化算法优化网络架构结构线性层,y=wx+b俩层的体系结构可以看作是单独的不同的层,因此简单的叠加线性层不会帮助我们的算法学习到任何东西。为了解决这个问题,深度学习也提供了很多非线性层。一些比较常用的非线性函数;sigmodtanhReLUleaky ReLU非线性激活是接受输入,然后应用数学变换并产生输出的函数Sigmod输出0到1之间的值,之前很流行,现在逐渐不被使用了。其缺点是在趋向于无穷时,
2020-11-06 23:45:03
221
空空如也
请问多个单通道的语音怎么叠加成一个多通道的,以chime3为例
2021-10-07
TA创建的收藏夹 TA关注的收藏夹
TA关注的人