
语音识别
文章平均质量分 81
尚歌
一步一脚印,在代码的世界创出自己的路
展开
-
语音方向论文阅读
1.Bi-encoder Transformer Network for Mandarin-English Code-switching Speech Recognition using Mixture of Experts摘要面对中英文混合数据稀疏性问题,提出Bi-Encoder Transformer network以及加入gating network进行语种判定模型结构实验结果...原创 2021-10-08 21:50:23 · 655 阅读 · 0 评论 -
语音方向论文阅读
1.Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning for Low-Resource Speech Recognition摘要模型结构实验结果BABELAishell-1结论利用BERT预训练模型来做语音识别,引入嵌入注意模块将声学信息融入到bert,促进表征学习...原创 2021-09-30 16:25:03 · 554 阅读 · 0 评论 -
音频数据增强
引言尽管调整模型架构和超参数是一个搭建完美模型的成功因素,数据科学往往需要关注数据。无论你搭建的模型多么amazing,但是GIGO(garbage in,garbage out)必须是我们需要考虑的。同时,在实际的数据工程中,数据的缺乏往往是一个很常见的问题。数据增强方法可以通过已有的数据来产生相似的数据,从而提高模型的鲁棒性和泛华能力。本文旨在介绍一些论文的语音增强方法,语音增强工具。数据增强常规增强方法1参考文献:https://blog.youkuaiyun.com/wudibaba21原创 2021-08-17 11:28:34 · 5067 阅读 · 0 评论 -
语音论文阅读:U2
摘要提出一种双路方法将流式和非流式端到端语音识别模型统一到一个模型中,模型采用混合CTC/attention架构,其中encoder中的conformer结构被修改w原创 2021-05-31 16:42:36 · 1184 阅读 · 1 评论 -
语音识别中的WFST和语言模型
导读在语音识别系统中,有限加权状态转换机(Weighted Finite State Transducers, WFST)扮演着重要角色。本文主要介绍发音词典、语言模型和WFST的原理,以及在实践过程中的一些优化方法。背景目前的实际场景中的语音识别系统更多是基于HMM的传统语音识别框架,如:DNN-HMM,这种框架是由声学模型、发音词典、语言模型和解码器构成的pipeline结构,其中声学模型建模粒度为比音素还小的三音素状态,而语言模型和WFST在其中扮演着重要的角色。本文将主要围绕三个问题转载 2021-05-10 11:42:34 · 2781 阅读 · 0 评论 -
语音论文阅读:使用无监督的预训练改善基于Transformer的语音识别
摘要语音识别技术在各种工业应用中取得了巨大的普及。然而,建立良好的语音识别系统通常需要大量的转录数据,这是昂贵的收集。为了解决这个问题,提出了一种被称为掩蔽预测编码的无监督的预训练方法,其可以应用于与基于Transformer的模型的无监督预传真预测。 HKUST的实验表明,使用相同的训练数据,我们可以实现23.3%,超过最佳端到端模型超过0.2%的绝对CER。通过更多的预训练数据,我们可以进一步将CER降低到21.0%,或相对CER减少11.8%的基线。引言及相关工作最近,无监督的预训练已经显原创 2021-05-05 14:32:18 · 786 阅读 · 0 评论 -
语音论文阅读TINY TRANSDUCER: A HIGHLY-EFFICIENT SPEECH RECOGNITION MODEL ON EDGE DEVICES
摘要本文提出了一种极其轻质的通信连接换能器模型,在边缘设备上具有微小解码图。首先,首先使用基于空白标签跳跃的电话同步解码(PSD)算法来加速换能器解码过程。然后,为了减少高空白得分引入的删除误差,提出了一个空白标签脱模方法。为了降低参数和计算,在换能器编码器中使用深馈通顺序存储器网络(DFSMN)层,并采用基于CNN的无状态预测器。 SVD技术进一步压缩模型。基于WFST的解码图采用上下文 - 独立的(CI)音素,后断作为输入,并允许我们灵活地偏置用户特定信息。最好在使用SVD之后模型参数只有0.9M,原创 2021-04-19 17:24:15 · 486 阅读 · 0 评论 -
第三代语音识别技术初探
全国声学大会语言声学分论坛上的现场报告知识总结原文地址转载 2021-04-10 12:48:25 · 464 阅读 · 1 评论 -
语音识别基础
语音识别架构组成基础概念自动语音识别(Automatic Speech Recognition,ASR)技术是一种将人的语音转换为文本的技术。这项技术被当做是可以使人与人、人与机器更顺畅交流的桥梁,已经在研究领域活跃了50多年。系统分类研究领域分类识别任务分类应用帮助人与人的交流 HHC:应用场景如,如翻译系统,微信沟通中的语音转文字,语音输入等功能。语音到语音(speech-to-speech,S2S)翻译系统,可以整合到像Skype这样的交流工具中,实现自由的转载 2021-04-09 17:28:33 · 1606 阅读 · 0 评论 -
CTC相关知识
简介在语音识别中,我们的数据集是音频文件和其对应的文本,不幸的是,音频文件和文本很难再单词的单位上对齐。除了语言识别,在OCR,机器翻译中,都存在类似的Sequence to Sequence结构,同样也需要在预处理操作时进行对齐,但是这种对齐有时候是非常困难的。如果不使用对齐而直接训练模型时,由于人的语速的不同,或者字符间距离的不同,导致模型很难收敛。CTC(Connectionist Temporal Classification)是一种避开输入与输出手动对齐的一种方式,是非常适合语音识别或者O原创 2021-04-07 18:17:14 · 853 阅读 · 0 评论 -
语音论文:用于端到端语音识别的简化完全量化的Transformer模型
论文题目 A SIMPLIFIED FULLY QUANTIZED TRANSFORMER FOR END-TO-END SPEECH RECOGNITION摘要 讲了近些年来,端到端语音识别性能方面取得了重大改进,但缺点是不适应与边缘设备上的嵌入式使用。在本文中,我们在基于简化和压缩的Transformer模型上进行语音识别,本文通过调查抛弃特定模块的影响来引入更加紧凑的speech-transformer。此外,本文评估了降低我们网络权重...原创 2021-04-04 16:55:55 · 2515 阅读 · 0 评论 -
EESEN:使用深RNN模型和基于WFST的解码进行端到端语音识别
论文: EESEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING摘要文本提出了Eesen框架,该框架极大地简化了构建最优ASR系统的流程。声学建模包括使用RNN学习预测上下文无关目标(音素或字符),为了消除预先生成的帧标签的需求,本文采用了CTC目标函数来推断语音和标签序列之前的对齐方式。Eesen一个显著特征是基于加权有限状态转换机(WFST)解码方式,该方法可将词典和...原创 2021-03-14 21:21:21 · 1259 阅读 · 0 评论 -
使用Sinc卷积从原始音频数据进行轻量级的端到端语音识别
论文:Lightweight End-to-End Speech Recognition from Raw Audio Data Using Sinc-Convolutions摘要:许多端到端自动语音识别(ASR)系统仍依赖于经过预处理的频域特征,这些特征是手工制作的以模仿人类的听力。集成可学习特征提取的最新进展推动了我们的工作。为此,文本提出了将Sinc卷积与深度卷积相结合的轻型Sinc卷积(LSC),作为端到端ASR系统的低参数机器学习特征提取。本文将LSC(轻型Sinc卷积)融合进C.原创 2021-03-10 15:06:58 · 1502 阅读 · 0 评论 -
用于端到端语音识别的文本数据多任务训练
论文 CIF: CONTINUOUS INTEGRATE-AND-FIRE FOR END-TO-END SPEECH RECOGNITION摘要提出一个新颖的软单调对齐机制,它受尖峰神经网络中的“积分并发射”模型的启发,并在编码器-解码器框架中使用,它由连续函数组成,因此被称为:连续积分并发射(CIF)。 CIF应用于ASR任务,不仅显示简洁的计算,还支持在线识别和声边界定位,因此适用于各种ASR场景。还提出了几种支持策略来缓解基于CIF模型的独特问题引言...原创 2021-03-04 15:45:36 · 1110 阅读 · 0 评论 -
MFCC/HMM/GMM/EM/LM基本知识
语音识别的基本流程语音的识别对于人类来说是很自然的一个过程,但要让机器“听懂”却十分困难。一段音频文件,机器怎么才能知道它代表的是什么意思呢?语音识别要做的事,就是组CP:根据音频文件来判断对应的文本。当然,要让机器真正的“听懂”和“理解”,还涉及到很多其他的知识,语音识别只是其中一个环节。那么机器接收到左边这段语音之后,是怎么把它一口口吞下去,最后吐出来一个“two”呢?下图中,我们以最经典的基于GMM-HMM的语音识别框架为例,可以看到,经过数据准备、特征提取、训练、再到解码,就可以获取最终转载 2021-01-23 21:55:04 · 2080 阅读 · 0 评论 -
语音论文阅读(基于Transformer的在线CTC/Attention 端到端语音识别架构)
论文: TRANSFORMER-BASED ONLINE CTC/ATTENTION END-TO-END SPEECH RECOGNITION ARCHITECTURE摘要 最近,Transformer在自动语音识别领域获的了成功。为在线语音识别部署端到端模型是一种挑战,提出在线基于Transformer的CTC/Attention ASR体系结构,该体系包含自我编码器(SAE),截断注意力(MTA),和自我注意力解码器(SAD),我们根据科大的普通话ASR基准评估了在线...原创 2021-01-12 19:22:04 · 4177 阅读 · 1 评论 -
语音论文阅读(端到端ASR:从监督学习到具有现代体系结构的半监督学习)
论文: END-TO-END ASR: FROM SUPERVISED TO SEMI-SUPERVISED LEARNING WITH MODERN ARCHITECTURES摘要利用伪标签(pseudo-labeling)ResNet,ConvNets,Transformers,使用CTC或者Seq2Seq损失函数,但半监督可改善整个体系结构和损耗函数中的所有模型,并弥合它们之间的许多性能差距。研究不同数量的未标记音频的效果,提出了几种评估未标记音频特性的方法,这些方法可以...原创 2021-01-04 11:09:43 · 992 阅读 · 0 评论 -
语音论文阅读(大规模数据集上的语音增强)
论文 SPECAUGMENT ON LARGE SCALE DATASETS摘要语音增强是一种直接作用在输入话语声谱图上的自动语音增强方法,实践证明在端到端网络上非常有效,训练声学模型使用语音增强的数据和噪音扰动的训练数据,介绍了SpecAugment的一种修改,根据发音的长度调整了时间掩码的大小和多重性,通过自适应掩盖可以将LAS模型在Librispeech上进一步提升引言介绍了之前的一篇时域频域掩盖语音增强论文效果不错,不同语音增强方法在Google Multidom...原创 2020-12-31 13:43:42 · 1121 阅读 · 0 评论 -
语音论文阅读(用于自动语言识别的改进的噪声学生训练)
论文: Improved Noisy Student Training for Automatic Speech Recognition摘要: 将“noisy student training”这种半监督学习方法应用到语音领域,采用语音增强SpecAugment 来适应和改进这种半监督方法。在LibriSpeech数据集上的效果非常明显,使用100h作为监督训练,其余剩下的作为无监督训练,就能在测试集上获得4.2%/8.6%的WER,加大无监督训练数据集,可以获...原创 2020-12-30 20:30:50 · 511 阅读 · 0 评论 -
语音论文阅读(用于SOTA语音识别的多流CNN和自专注SRU)
论文: ASAPP-ASR: Multistream CNN and Self-Attentive SRU for SOTA Speech Recognition摘要: 两种新颖的神经网络架构Multistream CNN(声学模型),slef-Attentive SRU(语言模型),在混合ASR框架中,多流CNN声学模型在多个并行管线中处理语音帧的输入,其中每个流具有唯一的扩容速率以实现分集,使用一些数据增强的方法训练,在Librispeech数据集test-...原创 2020-12-23 20:30:31 · 921 阅读 · 0 评论 -
语音论文阅读(CTC以及预测掩码的非自回归端到端语音识别)
论文: Mask CTC: Non-Autoregressive End-to-End ASR with CTC and Mask Predict摘要:提出了MASK CTC(一种新型非自回归端到端语音识别框架),自回归(Autoregressive Translation , ART)模型需要用已生成的词来预测下一个位置的词,代价比较大,非自回归模型可以在恒定的迭代次数内同时生成标记,推理时间明显减少,本论文MASK CTC 是基于Transformer,预测屏蔽以及CTC联...原创 2020-12-23 10:55:30 · 2109 阅读 · 0 评论 -
INTERSPEECH 2020 技术交流会笔记
1.微软报告题目:构建工业级流式端到端语音识别模型主流端到端模型: Transducer S2SAttention mechanism 无 有搭建组件 ...原创 2020-12-20 14:14:37 · 482 阅读 · 0 评论 -
语音论文阅读(Conformer:基于卷积增强的Transformer语音识别模型)
论文: Conformer: Convolution-augmented Transformer for Speech Recognition摘要: 讲了基于CNN和Transformer的语音识别模型表现比以RNN为基础的模型好,Transformer模型擅长捕获基于内容的全局交互,而CNN则有效地利用了局部特征。本文工作:我们通过研究如何结合卷积神经网络和Transformer到一个模型,以参数有效的方式对音频序列的局部和全局相依性进行建模,从而实现了两个方面...原创 2020-12-13 09:21:22 · 18684 阅读 · 7 评论 -
语音论文阅读(流行的大规模语音识别端到端模型的比较)
论文: On the Comparison of Popular End-to-End Models for Large Scale SpeechRecognition(2020)大致内容:介绍了主流了端到端系统流式和非流式(RNN-T,RNN-AED,Transformer-AED) 展示了AED模型在非流式中比RNN-T模型好,在流式中RNN-T更有竞争性 Transformer-AED是目前的主流,在流式和非流式上都可以实现最好的精确度 展示目前的趋势是混合系统,将不同...原创 2020-12-11 09:23:24 · 1198 阅读 · 0 评论 -
端到端语音识别模型
端到端语音识别模型(原文地址)随着端到端神经网络在机器翻译、语音生成等方面的进展,端到端的语音识别也达到了和传统方法可比的性能。不同于传统方法将语音识别任务分解为多个子任务(词汇模型,声学模型和语言模型),端到端的语音识别模型基于梅尔语谱作为输入,能够直接产生对应的自然语言文本,大大简化了模型的训练过程,从而越来越受到学术界和产业界的关注。本文将通过六篇论文,从建模方法、响应时间优化、数据增强等不同方面讲解端到端语音模型的发展,并探讨不同端到端语音识别模型的优缺点。 ...转载 2020-12-10 09:58:57 · 3507 阅读 · 0 评论 -
音频预处理(数据增强方法总结)
离线处理:训练之前先对语音数据进行加噪音、调低\高音量、1.5倍速播放等(有人用工具audiomentations),然后再提取MFCC特征到特征文件里(特征文件格式.h5,.csv),训练时数据集从特征文件读取,不需要再预处理了. 优点:只需提取特征一次就可以多次训练,时间减少很多; 缺点:每个epoch喂入模型的数据特征都是一样的(提取到特征文件,其实特征就被写死了),变相的降低了数据集可增强的空间,模型泛化能力会降低; 在线处理:对数据进行预处理,然后提取MFCC特征,最后喂入模...原创 2020-12-08 15:39:41 · 13581 阅读 · 8 评论 -
pytorch模型微调笔记
1.调整某一层参数有时候在运行过程中稍微改下模型的输入词大小,就会导致和原来模型不符的bug出现RuntimeError: Error(s) in loading state_dict for TransformerLanguageModel: size mismatch for output_project.weight: copying a param with shape torch.Size([4233, 320]) from checkpoint, the shape i原创 2020-11-26 13:46:23 · 2205 阅读 · 0 评论 -
语音识别--kaldi笔记(2)
local/aishell_train_lms.sh || exit 1(语言模型训练)这个shell脚本读取data/local/train/text,data/local/dict/lexicon.txt得到text的计数文件word.counts并以word.counts为基础添加lexicon.txt中的字(除了SIL)出现的次数到unigram.counts中text=data/local/train/text #设置文本位置 BAC009S0002W0122 而 对 楼市 成交 .原创 2020-11-25 21:03:48 · 634 阅读 · 0 评论 -
语音识别--kaldi特征提取代码笔记(1)
脚本说明cmd.sh(配置运行方式,以及内存使用大小,使用gpu数量)#export train_cmd="queue.pl --mem 2G"#export decode_cmd="queue.pl --mem 4G"#export mkgraph_cmd="queue.pl --mem 8G"export train_cmd=run.plexport decode_cmd="run.pl --mem 4G"export mkgraph_cmd="run.pl --mem 8G"ex原创 2020-11-24 17:57:48 · 1311 阅读 · 0 评论 -
语音识别特征处理(MFCC,Fbank,PNCC)
语音参数提取特征分帧 ——> 预增强 ——> 加窗 ——> 添加噪声 ——> FFT ——> Mel滤波 ——> 对数运算——> DCT分帧我们需要将不定长的音频切分成固定长度的小段,这一步称为分帧。一般取10-30ms为一帧,为了避免窗边界对信号的遗漏,因此对帧做偏移时候,要有帧迭(帧与帧之间需要重叠一部分)。 一般取帧长的一半作为帧移,也就是每次位移一帧的二分之一后再取下一帧,这样可以避免帧与帧之间的特性变化太大。通常的选择是25ms每帧,帧迭为10转载 2020-09-29 10:40:34 · 20747 阅读 · 3 评论 -
CLDNN 模型
前言总结目前语音识别的发展现状,dnn、rnn/lstm和cnn算是语音识别中几个比较主流的方向。2012年,微软邓力和俞栋老师将前馈神经网络FFDNN(Feed Forward Deep Neural Network)引入到声学模型建模中,将FFDNN的输出层概率用于替换之前GMM-HMM中使用GMM计算的输出概率,引领了DNN-HMM混合系统的风潮。长短时记忆网络(LSTM,LongShort Term Memory)可以说是目前语音识别应用最广泛的一种结构,这种网络能够对语音的长时相关性进行建模,原创 2020-09-24 15:14:57 · 5680 阅读 · 1 评论 -
工作站(集群)使用说明及相关工具
mysql -u root -pEnter password:ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/var/run/mysqld/mysqld.sock' (2)原创 2020-09-19 11:47:29 · 7233 阅读 · 0 评论 -
语音识别相关会议期刊、研究机构、工具包、博客等
目录一.会议1.1国际最顶尖会议1.2其他二. 期刊2.1国内2.2国外:三.国际语音识别技术研究机构五. 语音识别技术工具包六.主页和博客一.会议1.1国际最顶尖会议ICASSP:International Conference on Acoustics, Speech and Signal Processing每年一届,10月截稿,次年...转载 2019-10-18 21:37:30 · 1670 阅读 · 0 评论