
语音识别
文章平均质量分 60
搬砖民工金币
利用闲暇时光记录点点滴滴,2021年放弃以前编程技术路线投入网管队伍中来,转型网络维护方向
展开
-
基于ASRT中文语音识别系统的优化
该项目是基于CNN+CTC网络实现,中文标注是拼音,解码使用HMM,项目地址:https://github.com/nl8590687/ASRT_SpeechRecognition该项目很不错,但是本人用原版项目代码进行训练测试无法达到较好的效果,然后对其做了一些改动,时间有限最终拼音ER在11%左右,词错误率WER 在33%左右,数据集使用aishell,thchs30,ST-CMDS原版项目解释可以参考github上的说明,比较详细,下面说下优化部分:模型架构使用VGG(微调结构适配频谱图)原创 2020-06-19 15:03:25 · 3308 阅读 · 7 评论 -
从yesno模型入门kaldi语音识别
yesno模型 kaldi常用工具 http://blog.youkuaiyun.com/zjm750617105/article/details/52548798kaldi官网工具大全http://kaldi-asr.org/doc/tools.htmlyesno孤立词识别kaldi脚本http://www.cnblogs.com/welen/p/7485151.html执行 run.s...原创 2018-08-16 11:07:02 · 117094 阅读 · 4 评论 -
kaldi之librispeech脚本阅读
该 脚本准备音素列表和聚类问题,下图是该语句执行结果silence_phones.txt是“静音”音素,包含各种噪声、笑声、咳嗽、填充停顿等(SIL SPN NSN LAU) nonsilence.txt包含的是“真实”音素,每行第一个是基本音素,后面是音调和语气不同导致的变化;optional_silence.txt仅包含单音素(一般是SIL )extra_questio...原创 2018-08-16 11:10:14 · 6912 阅读 · 14 评论 -
HMM隐马尔可夫模型学习总结
介绍 HMM在实际应用中主要用来解决3类问题。 1.评估问题(概率计算问题)即给定观测序列 O=O1O2…Ot和模型参数λ=(A,B,π),怎样有效计算这一观测序列出现的概率P(O|λ)2.预测问题 (也称解码问题)即给定观测序列 O=O1O2…Ot和模型参数λ=(A,B,π),怎样寻找满足这种观察序列意义上最优的隐含状态序列S。3.学习问题。即HMM的模型...原创 2018-08-16 11:14:35 · 6194 阅读 · 0 评论 -
稀疏表示学习字典实现语种识别
参考论文:Singh O P, Sinha R. Sparse coding of i-vector/JFA latent vector over ensemble dictionaries for language identification systems[J]. International Journal of Speech Technology, 2017(11):1-16.实现通过...原创 2018-08-16 11:39:17 · 448 阅读 · 0 评论 -
使用kaldi提取bnf特征,基于bnf特征进行语种识别
参考《I2R-NUS Submission to Oriental Language Recognition AP16-OL7 Challenge》现在很多研究通过bnf特征作为输入特征进行语种识别取得了很不错的效果,利用kaldi对该方法进行了实现:1.主要利用了kaldi开源工具中的 steps/nnet2/train_tanh_bottleneck.sh 训练一个包含瓶颈层的神经网络...原创 2018-08-23 10:09:21 · 2229 阅读 · 3 评论 -
【小记录】sox工具生成频谱图
sox <输入音频> -n remix 1 rate 10k spectrogram -y 129 -m -r -o <输出频谱图> remix 选择通道-y 频谱图y轴最大长度-m 灰度-r 显示时域频域坐标以及dBFS满量程分贝 该工具有bug,有些音频生成的长度可能有问题,具体如何解决不清楚,比如-x默认值800,会...原创 2018-12-21 15:58:03 · 2048 阅读 · 0 评论