
语音识别
xmdxcsj
毕业于中科院声学所,在BAT从事语音技术研究多年。微信公众号:谈谈语音技术,关注后跟踪最新博文。
展开
-
语音识别方向的资料
http://blog.youkuaiyun.com/xiaoding133/article/details/8842945上面是别人总结的语音识别方向的资料来源原创 2014-07-13 19:30:39 · 3440 阅读 · 0 评论 -
端到端语音识别(三) Sequence to Sequence and Attention
Historyencoder-decoder2014年Kyunghyun Cho[1]提出了RNN Encoder-Decoder的网络结构,主要用在翻译上面。 encoder将变长的输入序列映射到一个固定长度的向量,decoder将该向量进一步映射到另外一个变长的输出序列,网络结构如下图: encoder: h⟨t⟩=f(h⟨t−1⟩,xt)\boldsymbol h_{\langle原创 2017-04-20 19:54:00 · 5650 阅读 · 2 评论 -
端到端语音识别(二) ctc
相关笔记CTC学习笔记(一) 简介 CTC学习笔记(二) 训练和公式推导 CTC学习笔记(三) 解码 CTC学习笔记(四) 解码-WFST CTC学习笔记(五) eesen训练源码HistoryICML-2006. Graves et al. [1] introduced the connectionist temporal classification (CTC) objective fu原创 2017-04-20 19:50:11 · 10172 阅读 · 0 评论 -
端到端语音识别(一) 概况
传统方法的局限性[1]HMMMarkovian Assumptionp(qt|q<t)=p(qt|qt−1)p(q_t|q_{<t})=p(q_t|q_{t-1}) 转移概率只跟前一个时刻有关,无法对长时依赖性建模。Conditional Independence Assumptionp(xt|x<t,q≤t)=p(xt|qt)p(x_t|x_{<t}, q_{\leq t})=p(x_t|q_t原创 2017-04-20 19:49:33 · 9818 阅读 · 0 评论 -
DTW(Dynamic Time Warping)算法
变量定义1.warping function F=c(1),c(2)...c(k)...c(K)F=c(1),c(2)...c(k)...c(K) 其中c(k)=(i(k),j(k))c(k)=(i(k),j(k)) 表示两个语音特征序列A和B之间的映射关系。 2.time-normalized distance D(A,B)=MinF[∑Kk=1d(c(k))⋅w(k)∑Kk=1w(k)原创 2017-04-20 19:47:29 · 5283 阅读 · 0 评论 -
情感识别概况
情绪分类可以根据activation和valence将情绪简单分为两类,包括: - 声音大、快、高频能量大、pitch均值大而且分布范围广,比如joy/anger/fear - 相反,比如sadness情绪的类别根据palette theory可以分为以下几类: anger/fear/joy/sadness/surprise/disgust公开数据集特征类别维度global feature在准原创 2016-07-03 15:31:15 · 3953 阅读 · 2 评论 -
语音识别-关键词检测
introductionword-spotting,audio indexing,spoken term detection 输出的是word lattice,根据lattice计算关键词的后验概率。 ATWV=mean(Ncorrect(s)Ntrue(s)−βNspurious(s)T−Ntrue(s))ATWV=mean(\frac{N_{correct}(s)}{N_{true}(s)}翻译 2015-11-29 20:10:11 · 10237 阅读 · 0 评论 -
语音识别置信度
发展应用场景:smartly reject non-speech noises, detect/reject out-of-vocabularywords, detect/correct some potential recognition mistakes, clean up human transcriptionerrors in large training corpus, guide原创 2015-10-10 19:21:54 · 5185 阅读 · 0 评论 -
百度语音识别API使用小结
http://developer.baidu.com/wiki/index.php?title=docs/cplat/media/voice/sdk1. 首先到百度开发者平台注册(http://developer.baidu.com/),创建新的应用,应用创建需要审核一段时间,然后可以得到APIKEY和SECRETKEY,2. 申请开启语音识别服务。3.原创 2014-08-08 10:43:01 · 3970 阅读 · 0 评论 -
端到端语音识别(四) raw wavform
现在的端到端语音识别的第一个“端”大部分还是使用人为设定的语音特征,比如FBANK/PLP,更高级的端到端语音识别输入是语音波形,输出是文字。 近几年也有一些工作是使用神经网络(比如CNN)来学习传统的特征提取步骤,取得了跟使用传统的语音特征相当的结果,当前这部分工作绝大多数还是基于传统的HMM框架来做,还没有跟CTC或者encoder-decoder相结合。CNNGoogle[1]分析了CNN跟原创 2017-04-20 19:55:13 · 4633 阅读 · 0 评论