
语音识别
qq_14962179
这个作者很懒,什么都没留下…
展开
-
语音识别实践——深度学习训练准则
DNN的模型参数{W,b}需要通过每个任务的训练样本S={o,y}来训练得到。这个过程即训练过程或者参数估计过程,需要一个给定的训练准则和学习算法,也即需要定义一个损失函数。实际训练中交叉熵准则应用最多。模型参数的训练应该最小化期望损失函数。均方误差准则MSE对于回归任务,MSE(mean square error)准则经常被使用:交叉熵准则CE对分类任务来说,设y是一个概率...原创 2019-01-10 22:00:18 · 1349 阅读 · 0 评论 -
语音识别实践——第4章:DNN
深度神经网络框架:(前向神经网络FDNN&&全连接神经网络FCNN)使用误差反向传播来进行参数训练(训练准则、训练算法)数据预处理最常用的两种数据预处理技术是样本特征归一化和全局特征标准化。a.样本特征归一化如果每个样本均值的变化与处理的问题无关,就应该将特征均值归零,减小特征相对于DNN模型的变化。在语音识别中,倒谱均值归一化(CMN)是在句子内减去MFCC特征的均值...原创 2019-01-09 22:31:13 · 1730 阅读 · 0 评论 -
Speech Recognition Algorithms Using Weighted Finite-State Transducers
语音识别概述语音识别统计框架语音分析/特征提取声学模型子词模型和发音字典上下文相关音素模型语言模型解码WFSTFAFA基本性质半环理论基本操作转换器组合算法优化算法:确定化、weight pushing 、minimizationepsilon removal基于WFST的语音识别基于WFST的语音识别概述WFST的构建:声学模型、因素上下文相关、发音字典、...原创 2019-02-15 17:32:18 · 1234 阅读 · 1 评论 -
WFST优化算法
Determinization确定化DFA仅具有一个单个初始状态,并且对于来自每个状态的任何输入标签,最多只有一个转换,即给定符号在给定状态下的转换是唯一的,因此目标状态也是唯一的,因此,如果输入符号序列被接受,则从初始状态到最终状态只有一条路径。这称之为FA。Determinization就是将NFA转换为FA的过程。从一个状态出发的弧当中,输入标签不能重复。如果存在重复的输入标签,就无法...原创 2019-02-17 15:39:55 · 1044 阅读 · 0 评论 -
语音识别——TDNN时延神经网络
参考:http://www.inf.ed.ac.uk/teaching/courses/asr/lectures-2019.htmlhttps://blog.youkuaiyun.com/richard2357/article/details/16896837https://zhuanlan.zhihu.com/p/28283265相当于CNN的前身,相当于1dcnn,即一维CNN。它的共享权重被限制在...原创 2019-02-28 10:35:32 · 23592 阅读 · 1 评论 -
语音识别中DT训练和ML的区别
X表示训练数据中的语音信号,W代表训练数据中的文本,θ\thetaθ代表声学模型参数,LM语言模型是固定的。ML的目标函数是:θ^ML=argmaxθpθ(X∣W){{\hat \theta }_{ML}} = \arg \mathop {\max }\limits_\theta p{}_\theta (X|W)θ^ML=argθmaxpθ(X∣W)而DT的目标函数是:θ^DT...转载 2019-02-19 14:05:29 · 913 阅读 · 0 评论 -
HMM中的训练问题
baum-Welch 最大化似然度准则CE准则 最小化帧错误率MMI准则 最大化O与V的互信息,也即最小化H(W|O)条件熵。 最大化句子正确率MPE准则 最小化音素错误率sMBR 最小化状态错误率EM算法EM是HMM训练的基础,主要解决在不完全数据下的最大似然估计问题。原理:EM算法通过迭代,**最大化完全数据对数似然度的期望,**从而间接最大化对不...转载 2019-02-19 15:08:11 · 1080 阅读 · 0 评论 -
kaldi 语音识别 lattice-free MMI声学训练
List item在语音识别领域,DT训练能显著提高语音识别系统的性能。DT训练需要所有的单词序列组合来做训练。一般而言我们会先利用交叉熵准则训练一个基准模型,配合使用一个相对较弱的语言模型生成相应的词图(lattice).Lattice里面除了包含与正确识别结果相对应的路径外,还包含与正确路径足够接近的其它路径。DT训练就是要提高模型走正确路径的概率,同时压低走相似路径的概率。近年来CT...原创 2019-02-25 11:14:04 · 3592 阅读 · 0 评论 -
MMI在ASR中的应用
介绍ASR中DNN声学模型训练通常使用CE准则作为损失函数进行训练,CE准则是最小化帧错误率,但在基于帧识别的ASR中我们一般直接使用WER(自错误率)来评价语音识别准确率,更关心的是序列的准确性,会导致损失函数和训练目标不一致。DT在识别序列上定义误差,更接近语音识别的最终目标。常用DT目标函数有MMI,BMMI,MPE,MBR。使用CE准则时,又可能帧的正确率提高了但是最终解码WER...转载 2019-02-19 16:56:28 · 1204 阅读 · 1 评论 -
WebRTC NS
噪声频谱使用语音/噪声似然函数进行估计。将接收到的每帧信号和频率分量分类为噪声或语音。NS主要用于宽带,加性,有色噪声。WebRTC中NS是对语音/噪声似然比(VAD检测时就用了该方法)函数进行改进,将多个语音/噪声分类特征合并到一个模型中形成一个多特征综合概率密度函数,对输入的每帧频谱进行分析,可以有效地抑制风扇/办公设备等噪声。抑制过程如下:对接收到的每一帧带噪语音信号,以对该帧的初始噪...原创 2019-03-01 09:49:13 · 1037 阅读 · 1 评论 -
WebRTC AEC
AEC算法主要模块:1.回声时延估计(用于自适应滤波器部分延时估计对齐)2.NLMS滤波器(归一化最小均方自适应算法),即PBFDAF(分段块频域自适应滤波算法)。3.NLP是非线性滤波,取掉残余回声。4.CNG舒适噪声产生判断远端和近端是否说话的情况,称为双端检测,需要检查一下四种情况:a.仅远端说话,此时有回声,利用这种状态进行NLMS自适应滤波器的系数更新,使其尽快收敛。b....原创 2019-03-01 11:08:02 · 3779 阅读 · 1 评论 -
discriminative training鉴别性训练
MLE(maximum likelihood estimation最大似然估计):之前用于训练HMM参数(A和B矩阵)所用的Baum-Welch算法和嵌入式训练时基于最大化训练数据的似然度的。MLE的替代方案是不再将最佳模型和数据相匹配,而是从其他模型中区分出最佳模型。鉴别性训练包括MMIE(最大互信息估计准则,Woodland and Povey, 2002)使用NN/SVM分类器,MCE(最...原创 2019-03-01 12:54:55 · 1134 阅读 · 0 评论 -
lattice
lattice在实际的语音识别系统中,最优路径不一定与实际字序列匹配,我们一般希望能够得到得分最靠前的多条候选路径,即N-best。为了紧凑地保存候选路径,我们一般采用lattice(词图)来保存识别的候选序列。lattice本质上是一个有向无环图。图上的每个节点代表一个词的结束时间点,每条边代表一个可能的词,以及该词发生的声学得分和语言模型得分。在生成one-best结果时,只需要从最优...原创 2019-03-02 14:31:41 · 2404 阅读 · 0 评论 -
语音识别实践7.1——训练加速
GPU流水线反向传播异步随机梯度下降增广拉格朗日算法及乘子方向交替算法减小模型规模改善训练速度可以通过更好的训练算法或者使用更小的模型。DNN中的权值矩阵大体上是低秩的,且DNN最后一层占用了系统50%的模型参数以及训练计算量。且DNN任意层只有最大的30%~40%的权重是重要的,每个权值矩阵可以近似地进行低秩分解且没有识别精度的损失。使用SVD,每个权值矩阵可以分解为两个更小的矩阵,...转载 2019-02-26 17:12:10 · 558 阅读 · 0 评论 -
SVD模型裁剪 TDNN-f
论文:Daniel Povey 2018年论文,Simi-Orthogonal Low-Rank Matrix Factorization for Deep Neural Networks 半正定低秩矩阵分解DNN摘要:TDNN又被称为1维CNN(1dCNNS)。本文提出的TDNN-F,结构与经过SVD分解的TDNN相同。但TDNN-F的训练开始于随机初始化,SVD分解后,其中一个矩阵被限制...原创 2019-02-27 13:02:25 · 1763 阅读 · 1 评论 -
2.7.5lattice generation and n-best search
lattice生成和N-best搜索:引用多种假设思想,使语音解码器输出多个得分较高的结果,然后再利用一些附加知识如当前状态及谈话主题选择一个合理的结果。multiple hypotheses在multi-pass decoding,DT,unsupervised adaptation,confidence estimation中都有应用。multi-pass decoding:核心是首先用...原创 2019-03-10 13:47:28 · 426 阅读 · 0 评论 -
语音识别实践——第6章总结2:
CD-DNN-HMM带来语音识别性能提升的三大关键因素是:1)使用足够深的神经网络;2)使用一长段的帧作为输入;3)直接对三因素进行建模。1.进行比较和分析的数据集实验:a.必应(bing)移动语音搜索数据集:数据分为训练集、开发集、测试集,避免三个集合之间重复。语言模型:一元词组、二元词组、三元词组。语言模型混淆度/困惑度:PPL(Perplixity),度量语言模型性能。PP...原创 2019-01-09 17:16:23 · 1007 阅读 · 0 评论 -
语音识别实践——第2、3章:GMM,HMM
GMM高斯混合模型HMM隐马尔科夫模型EM算法GMM参数估计(EM算法应用)GMM-HMM模型训练Baum-Welch算法(HMM前向后向算法,EM算法应用)维特比(Viterb)算法(动态规划算法的实际应用)...原创 2019-01-09 17:51:32 · 337 阅读 · 0 评论 -
语音识别实践——加速解码
1.量化及并行计算技术现代CPU通常支持低级的单指令多数据(single instruction multiple data,SIMD)指令级并行。对隐藏层的激活值,权重,偏执值进行量化(quantization).2.稀疏DNN3.低秩分解技术—SVD4.多帧DNN计算技术...原创 2019-01-01 18:08:07 · 741 阅读 · 0 评论 -
VAD
f原创 2019-01-06 16:25:01 · 291 阅读 · 0 评论 -
语音识别:CD-DNN-HMM训练过程
以一帧为单位进行交叉熵训练序列鉴别性训练准则,MMI准则用来lattice框架,以sMBR准则作为优化目标使用早停止系统是建立在LDA-MLLT-FMLLR特征(从辅助的GMM模型中得到)之上的,训练要用到GPU+CUDA。LDA(Linear Discriminant Analysis 线性判别分析)MLL...转载 2019-01-11 17:07:30 · 602 阅读 · 0 评论 -
语音识别
vadpitchmfccFbankplpcmvnLDAHLDA(异方差线性判别分析)MLLTFMLLRVTLNGMMHMM(前向后向概率)EMGMM参数估计GMM-HMM模型Baum-Welch算法(HMM前向后向算法,EM算法应用)维特比(Viterb)算法(动态规划算法的实际应用)DNN前向计算DNN误差反向传播训练MSECEMMI/BMMI及la...原创 2019-01-11 17:30:33 · 209 阅读 · 0 评论 -
state-of-the art speech recogniton with seqence to sequence models
Google 2018attention-based 注意力机制encoder-decoder 编码解码模型LAS 模型原创 2019-01-17 16:56:59 · 308 阅读 · 0 评论 -
kaldi解码流程
1.解码之前工作:首先训练好模型,用到4个文件:final.mdl(训练得到的声学模型文件)final.mat(用来特征转换)HCLG.fst(fst文件)words.txt(字典文件)此外还要提供带解码音频文件或路径.scp文件:wav.scp(音频路径.scp文件)2.流程图:2.使用compute-mfcc-feats提取特征,有时也会加上基音周期,用compute-ka...转载 2019-01-07 11:46:06 · 2696 阅读 · 0 评论 -
HMM(前向后向概率)
隐马尔科夫模型参数(三要素):初始状态概率转移概率观测概率两个基本假设:齐次马尔可夫假设:HMM任一时刻t某一状态只依赖于其前一时刻的状态,与其它时刻的状态及观察无关,也即时刻t无关。观测独立性假设:任一时刻的观测只依赖于该时刻的马尔科夫链状态,与其他时刻及状态无关。HMM概率计算问题:概率计算就是给定一个模型参数已知的HMM和一组观测序列,求这组观测序列由这个HMM所生成...原创 2019-01-12 11:00:32 · 2681 阅读 · 1 评论 -
WFST(加权有限状态转换机)
语音识别中graph和lattice模块用到WFST。1.WFST基本概念FST和WFST的区别是后者转移路径上附有权重。WFST和WFSA(加权有限状态接收器)的区别是前者的状态转移上的label既有输入又有输出,而后者只有label。用WFST来表征ASR中的模型(HCLG),可以更方便的对这些模型进行融合优化,作为ASR解码器。定义半环结构:2.WFST三大算法:Composit...转载 2019-01-02 21:22:32 · 4100 阅读 · 2 评论 -
the kaldi speech recognition toolkit——翻译
基于WFST的语音识别,利用开源的openfst。C++编写,核心库支持原创 2019-01-17 17:15:18 · 273 阅读 · 0 评论 -
GMM
单变量高斯分布 均值,方差多元变量高斯分布 均值,协方差矩阵单变量混合高斯分布多元混合高斯分布混合成分M的数量是一个先验值,主流做法是直接选取。语音识别中,输入向量x的维度很大时,用对角协方差矩阵代替全协方差矩阵,以减少参数量。参数估计:{cm,μm,Σm{c_m},{\mu _m},{\Sigma _m}cm,μm,Σm}EM(期望最大化算法)是MLE...原创 2019-01-12 17:26:40 · 724 阅读 · 0 评论 -
语音识别实践——第6章总结1:
1.DNN-HMM混合系统[HMM对语音信号的序列特性进行建模,DNN对所有聚类后的状态(聚类后的三音素状态)的似然度进行建模。对时间上的不同点采用同样的DNN]HMM描述语音信号的动态变化,DNN估计输入特征的观测概率。在给定声学观察特征的条件下,用DNN的每个输出节点来估计连续密度HMM的某个状态的后验概率。早期对上下文相关(音素状态绑定)的后验概率建模为:或Xt是t时刻的声学观...原创 2019-01-07 20:05:49 · 1221 阅读 · 0 评论 -
视频 Speech Recognition(ASR)
https://www.youtube.com/watch?v=HyUtT_z-cms&t=53s1.speech recognitionAcounstic respresentationPhonetic representationHistoryProbabilistic speech recognition2.neural network speech recognit...原创 2019-01-14 20:18:11 · 477 阅读 · 0 评论 -
语音与语言处理笔记——6HMM & maximum entropy
markov chainshmmcomputing likelyhood:HMM前向算法decode:veterbi算法training HMM:forward-backward算法maximum entropy 最大交叉熵训练准则翻译 2019-01-14 20:40:50 · 525 阅读 · 0 评论 -
语音与语言处理笔记——9.语音识别
语音识别系统结构语音识别中HMM的应用特征提取:MFCCcomputing acounstic likelihoods计算声学似然度字典和语言模型search and decoding搜索解码embedded trainingevaluation评估:WER,SER...翻译 2019-01-14 20:49:41 · 564 阅读 · 0 评论 -
语音与语言处理笔记——10语音识别
multipass decoding:N-Best lists and latticesA stack decodingcontext-dependent acounstic models:三音素discriminative training区分性训练modeling variation翻译 2019-01-14 21:01:56 · 416 阅读 · 0 评论 -
DFSMN——Alibaba2018
论文:DEEP-FSMN FOR LARGE VOCABULARY CONTINUOUS SPEECH RECOGNITION Alibaba 2018DFSMN 特点:跳层连接,更深的层数。和LFR结合。模型尺寸更小,低延迟。实验结果表明DFSMN是用于声学模型的BLSTM强有力替代方案。skip connectionsBLSTM网络lower frame rate(LFR)...原创 2019-05-06 19:50:55 · 3918 阅读 · 0 评论