
语音增强
dakenan1
这个作者很懒,什么都没留下…
展开
-
CTC学习笔记
原 CTC学习笔记 背景Connectionist temporal classification简称CTC,翻译不太清楚,可以理解为基于神经网络的时序类分类。其中classification比较好理解,表示分类问题;temporal可...转载 2019-08-21 15:32:05 · 248 阅读 · 0 评论 -
隐马尔科夫模型一(概念理解)
由于前一段时间在看CTC论文,里面用到了HMM中的前向后向算法,推公式的时候·一脸懵逼,所以又来学习HMM的思想,所以写篇博客做个笔记。本部分博客分为两篇,第一篇主要介绍一些基本的概念和思想,第二篇介绍理论的推导。博客的内容主要是基于<<统计学习方法>>以及其他的一些博客模型概念隐马尔可夫模型:隐马尔科夫模型是关于时序的概念模型,描述了由一个隐藏的马尔科夫链随机产生不可...转载 2019-08-21 15:58:42 · 245 阅读 · 0 评论 -
隐马尔可夫模型二(公式推导)
概率问题直接计算法前向后向算法前向算法后向算法一些期望学习问题Baum-Welch算法Baum-Welch参数估计公式预测算法近似算法维比特算法参考文献前面一篇介绍了隐马尔科夫模型的基本的一些概念,篇主要介绍三个问题的具体解决方法。如果对于概念不太理解的可以参考前一篇博客HMM模型基本概念,本篇博客主要介绍对于三个问题的主要推倒,内容...转载 2019-08-21 16:12:08 · 388 阅读 · 0 评论 -
Kaldi学习笔记(一)——Kaldi的下载安装与编译
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 ...转载 2019-08-21 16:27:10 · 320 阅读 · 0 评论 -
置换性不变训练(PIT)单通道语音分离(SS)入门
核心工作:提出一种通过最小化分离误差解决标签排列问题的排列不变训练技术。基于类的方法:1. 通过预测所属目标类的源来进行网络优化,通常用于每个时频块;2. 只能用于语音与背景噪声或音乐的分离,因为语音具有与噪声/音乐非常不同的特征;很难与其他技术结合。针对标签模糊问题解决核心:(参考Fig.1)1. PIT2. 基于分段的决策实验结果(T1):1. 训练阶段,MSE验证不会因...原创 2019-08-21 20:32:35 · 4269 阅读 · 0 评论 -
基于深度聚类Deep clustering单通道语音分离
论文一:基于深度聚类的单通道多语音分离核心工作:通过信号调节(正则化、加深网络结构)将基本DPCL系统性能极大地提升提升方法:Drop-out、调整网络结构、训练策略等Drop-out设置:随机节点置零有可能会让LSTM的记忆能力;在前向连接的每个时期对置零掩码采样,循环连接的每个时序进行一次采样,每个门用一个循环置零掩码,网络结构:双层BLSTM并且前面用一个前置反馈层来产生嵌入层。训...原创 2019-08-22 11:41:40 · 2997 阅读 · 5 评论 -
深度吸引子网络 Deep attractor Net单通道语音分离文献汇总
论文一:(DANet)基于单麦克风语音分离的深度吸引子网络核心工作:提出了在高维空间中嵌入吸引子(Attractor)将时频信息整合来训练的网络,模型实现了端到端的训练,分离不需要知道混合源的数量。分离的难点:1. 排序问题:混合语音会出现多个标签,无法分清属于哪个;2. 输出维度不匹配(标签不明确):不清楚具体有几个声源深度聚类(DPCL)特点:能解决以上两点问题,但目标函数是各声源...原创 2019-08-22 11:46:02 · 1464 阅读 · 0 评论 -
单通道语音增强Speech enhancement文献汇总
论文一:基于注意机制的神经网络单通道语音增强方法核心工作:提出基于注意机制的单通道语音增强方法,关注音频流的重要语音成分并适当降低对噪声、干扰的注意力。注意力机制(attention-based):1. 注意力机制需要决定整段输入的哪个部分需要更加关注;2. 从关键的部分进行特征提取,得到重要的信息。3. RNN模型在预测增强帧时隐式地学习过去输入特征的权重,而注意机制计算过去帧与要增强...原创 2019-08-22 11:48:48 · 4346 阅读 · 10 评论