
语音识别
文章平均质量分 55
语音识别相关学习
v-space
语音识别、声纹识别、语音唤醒
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《kaldi语音识别实战》:带特征变换的三音素模型训练——train_lda_mllt.sh,train_sat.sh解析
无监督特征变换差分在一定窗长内,计算前后帧的差分特征补充到当前帧后边。如一个M维的特征做D阶差分后特征维度变为(D+1)*M。# kaldisrc/featbin/add-deltas scp:data/train/feats.acp \ ark,scp:data/trainfeat_delta.ark,data/train/feats_deltas.scp拼帧在一定窗长内,将前后指定帧拼成一帧特征。# kaldisrc/featbin/splice-feats scp:d.原创 2022-04-06 21:02:35 · 3130 阅读 · 0 评论 -
《kaldi语音识别实战》阅读笔记:特征变换
无监督特征变换差分在一定窗长内,计算前后帧的差分特征补充到当前帧后边。如一个M维的特征做D阶差分后特征维度变为(D+1)*M。# kaldisrc/featbin/add-deltas scp:data/train/feats.ark \ ark,scp:data/trainfeat_delta.ark,data/train/feats_deltas.scp拼帧在一定窗长内,将前后指定帧拼成一帧特征。# kaldisrc/featbin/splice-feats scp:d.原创 2022-04-05 11:32:49 · 3509 阅读 · 0 评论 -
《kaldi语音识别实战》阅读笔记:三音素模型训练—train_deltas.sh解析
使用说明:steps/deltas.shUsage: steps/train_deltas.sh <num-leaves> <tot-gauss> <data-dir> <lang-dir> <alignment-dir> <exp-dir>e.g.:steps/train_deltas.sh 2000 10000 data/train_5k data/lang exp/mono_ali exp/tri1 ...原创 2022-04-04 19:57:34 · 2529 阅读 · 0 评论 -
《kaldi语音识别实战》阅读笔记:单音素模型训练—train_mono.sh解析
第一阶段:模型初始化gmm-init-monoInitialize monophone GMM.Usage: gmm-init-mono <topology-in> <dim> <model-out> <tree-out>e.g.: gmm-init-mono topo 40 mono.mdl mono.tree将topo文件和声学特征维度作为输入,则会生成初始声学模型。不需要输入任何训练数据,进初始化一个基础模型。且生成的模型中每个状态只有.原创 2022-04-04 15:13:15 · 2243 阅读 · 0 评论 -
kaldi:计算词错率(WER)
compute-wer --mode=present ark:reference ark:hyps原创 2021-12-27 10:07:30 · 2285 阅读 · 0 评论 -
SRILM使用指南
计算语言模型在验证集文本上的混淆度ngram -ppl test.txt -order 3 -lm LM > result计算语言模型最佳混合比例compute-best-mix lambda="0.4,0.4,0.2" A_corpus.ppl B_corpus.ppl C_corpus.ppl原创 2021-10-26 19:16:59 · 2162 阅读 · 0 评论 -
KenLM的安装及使用
一、安装git clone git@github.com:kpu/kenlm.git# git clone https://github.com/kpu/kenlm.gitcd kenlmmkdir -p buildcd buildcmake ..make -j 16注意:如果以上安装出错,可以拷贝已经编译好的即可。二、训练build/bin/lmplz --vocab_estimate -o 3 --text your_text --limit_vocab_file vocab --原创 2021-10-12 16:35:32 · 2685 阅读 · 4 评论 -
提取语音频谱包络步骤及matlab代码参考
原创 2021-09-27 10:30:09 · 1875 阅读 · 3 评论 -
语音识别相关会议及其论文查找
1.ICASSP2020会议日程:https://cmsworkshops.com/ICASSP2020/TechnicalProgram.asp进入你感兴趣的Topic日程后,可以查看相关文章,复制paper title后在Semantic Scholar中可以查找相关pdf或引用。未完待续。。。原创 2020-08-09 16:43:39 · 742 阅读 · 0 评论 -
语音数据增强—使用kaldi对语音加噪
wav-reverberate --additive-signals="sox noise.wav -r 16000 -t wav -|" \ --start-times='0' --snrs='10.0' \ source.wav dest.wav–start-time:添加噪音起始时间–snrs: 信噪比,越大噪音越小参考:MUSAN [论文]...原创 2020-04-10 12:07:15 · 2123 阅读 · 0 评论 -
语音识别语料库
Corpus:1.Mandarin:1.1aishell数据: http://www.openslr.org/33/178小时400个说话者(训练集:340,验证集:40,测试集:20)麦克风(44.1KHZ 16-bit),安卓(16kHZ 16-bit),iOS(16kHZ 16-bit)人工文本转写准确率在95%以上kaldi: https://github.com/k...原创 2020-03-25 19:09:17 · 3672 阅读 · 0 评论 -
语音识别深度学习模型发展历程论文简要总结
1.DBN was used ASR[1]Mohamed A, Dahl G, Hinton G. Deep belief networks for phone recognition[C]//Nips workshop on deep learning for speech recognition and related applications. 2009, 1(9): 39##2....原创 2020-08-20 22:03:39 · 1490 阅读 · 0 评论