
语音
淑芬和二狗
python、机器学习、网络安全爱好者
&个人微信公众号:淑芬和二狗
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
语音识别(一)
参考:http://www.julyedu.com/video/play/104/916 语音信号的频率一般在300Hz-3400Hz,按照奈奎斯特采样定理,为保证频谱不混叠,采样率至少为最高频率的2倍,一般最低采样率为8000Hz。 在2010年以前,语音识别的技术主要基于混合高斯模型(GMM)和隐性马尔科夫(HMM)模型,2010年以后,主要基于神经网络。该讲座主要是讲怎样...原创 2018-04-09 23:12:33 · 541 阅读 · 0 评论 -
马尔科夫链
参考:随机过程讲义(中科院孙应飞老师) 可约、不可约概念 定义:设C 是状态空间S 的一个子集,如果从C 内任何一个状态i 不能到达外的任何状态,则称C 是一个闭集。如果单个状态i 构成的集合{i}是闭集,则称状态i 是吸收态。如果闭集C 中不再含有任何非空闭的真子集,则称C 是不可约的。闭集是存在的,因为整个状态空间S 就是一个闭集,当 S 不可约时,则称此马氏链不可约,否则称此马氏链可约。...原创 2018-11-21 20:54:30 · 3354 阅读 · 0 评论 -
语音识别(四)
前馈神经网络 参考:http://www.julyedu.com/video/play/104/917 如何训练神经网络 神经网络是一个带参数(w,b)的函数 设计损失函数 梯度下降 反向传播 1.Tandem 结构 DNN的输入: 连续若干帧的滤波器组输出 甚至直接输入波形 DNN的输出: 上下文...原创 2018-12-03 14:45:46 · 386 阅读 · 0 评论 -
语音识别(三)
潘多拉魔盒 参考:http://www.julyedu.com/video/play/104/916 语音识别系统(1990~2010) 20年间,系统做了没有变化,但是有四个重要的技术提升了识别率 1.上下文有关模型 考虑five和nine两个单词,ai(f,v)和ai(n,n)不一样,英文的音素有50个, 若每个音素都考虑上下文,则状态数目会爆炸(50^3...原创 2018-12-01 23:32:42 · 205 阅读 · 0 评论