
语音识别
yuchiwang
阿里巴巴
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
语音识别token passing
在传统语音识别中,声学模型部分目前已经是神经网络的天下了,变的越来越傻瓜,解码部分还是保留,特别是在孤立词识别(唤醒)中,解码方案和参数对于识别的效果(准确率和唤醒率)的影响也不能忽略。在解码中,token passing算法是一种既使用又易于理解的算法。这里转载一篇文章,对token passing有比较全面的解释。转载自:https://blog.youkuaiyun.com/JosephPai/article/details/80522367...转载 2021-04-13 10:55:05 · 1297 阅读 · 0 评论 -
语音识别开源项目汇总
语音识别技术随着神经网络的兴起和发展,准确率得到了很大的改善,在很多场景下都可以逐步商用落地了,很多公司也组建了语音团队。其实在github上,语音识别相关的项目也是层出不穷,其中的一些项目的质量很高,如果好好借鉴学习的话可以避免从头造轮子,毕竟造轮子也不是那么容易的 = =!。在这里,对一些比较流行的项目做一些汇总和简单介绍。1. ASR1.1 kaldihttps://github.com/kaldi-asr/kaldi最流行的语音识别工具包,不过比较古老了,在神经网络时代有些落后,目前原创 2021-02-08 11:22:13 · 9438 阅读 · 0 评论 -
HMM, CTC和RNN-Transducer对齐方式的差异
转载自:https://www.jianshu.com/p/fad774f76be2来自台湾大学李宏毅的课程,对这几个模型的对齐方式做了比较详细的说明。转载 2021-02-03 17:22:17 · 1290 阅读 · 0 评论 -
语音识别中的似然和后验概率
说到语音识别,一般都从以下公式开始介绍(转自:https://blog.youkuaiyun.com/yutianzuijin/article/details/77621511) 为什么声学模型是这种形式我一直有困惑,因为在实际使用中,现在的声学模型一般都是神经网络,神经网络的输入是声学特征,输出直接就是某个音素或者音节的概率了,和上述对声学模型的描述并不相符。向同事请教后,原来是因为我不明白似然概率和后验概率,生成式模型和判别式模型的区别。以下文章有比较详细的阐述:https://www.cnblogs...原创 2021-01-07 14:35:00 · 842 阅读 · 0 评论 -
FSMN及其变种
FSMN及其变种,CFSMN,DFSMN等在语音识别声学模型建模上面相比单纯的DNN,CNN和TDNN等常用模型有一定优势,虽然也引入了一定的时延,相比RNN等复杂时序单元具有计算量和更容易训练的优势,在阿里巴巴语音相关技术上有广泛的应用。这里转载一篇文章,详细介绍了从FSMN到CFSMN到DFSMN的演变,为系统了解FSMN结构提供了比较全面的介绍。转载自:https://blog.youkuaiyun.com/qq_26778411/article/details/896824471.FSMN综述 ..转载 2020-12-21 10:24:47 · 1780 阅读 · 0 评论 -
kaldi 数据表单和文件
kaldi是语音从业者避不开的工具,因为开发者的知识结构可能比较老了,主要是脚本驱动,还有各种自定义的文件格式,下文对kaldi中的各种文件格式做了一些介绍,值得学习。原文链接:http://blog.sina.com.cn/s/blog_444061c70101hx7l.html以下是我看kaldi教程记的些笔记,希望能对你有所帮助(你可以把这个文档当成kaldi tutorial 的简要翻译)命令行我都加了下划线。数据准备这部分基本略过了,比较简单。从data/...转载 2020-11-17 16:36:50 · 824 阅读 · 0 评论 -
语音唤醒重要论文
谷歌KWSSMALL-FOOTPRINT KEYWORD SPOTTING USING DEEP NEURAL NETWORKS亚马逊二级唤醒MONOPHONE-BASED BACKGROUND MODELING FOR TWO-STAGE ON-DEVICE WAKE WORD DETECTIONTFLITE 8比特量化Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inf原创 2020-09-14 19:15:16 · 590 阅读 · 0 评论 -
语音识别基本概念 II
声学模型基本单元常用的声学模型基本单元是单词(Word)、上下文无关音素(Monophone)、上下文相关音素(Triphone,Biphone)和音节(Syllable)。Monophone 模型具有模型简单、状态数较少、识别速度刽、内存占用少且与识别词汇量无关等优点,但其对发音的相关性描述不够精确,一选识别率不搞。Triphone和Syllable模型对发音相关性能准确建模,但模型数量巨大...原创 2019-10-17 09:57:56 · 730 阅读 · 0 评论 -
语音中prior posterior likelihood的理解
上周看了一下亚马逊那篇二级唤醒的文章:MONOPHONE-BASED BACKGROUNDMODELING FOR TWO-STAGE ON-DEVICEWAKEWORD DETECTION里面提到第二个网络输入的特征中67维的有:这里likelihood score,normalized likelihood score 和 posteriror 分别指什么不太清楚,文中也没有解释。...原创 2019-09-10 14:32:42 · 1107 阅读 · 0 评论 -
语音识别基本概念
这篇文章主要是对CMU Sphinx系列教程的第一篇文章的主要内容做一些总结。学习某个知识,掌握这些知识的基本概念是必要的。不了解这些基本概念和他们的英文表述,对于代码(kalid)和论文的阅读都会存在一些障碍。对这些基本概念是否了解,是检验一个人是否入门语音识别的一个标志。原文如下:https://cmusphinx.github.io/wiki/tutorialconcepts/语...原创 2019-09-06 11:10:12 · 1295 阅读 · 0 评论 -
语音识别技术构架
转自:https://coffee.pmcaff.com/article/1055672606603392/pmcaff?utm_source=forum&from=search很好的一篇文章,没有任何公式,但是把语音识别的技术框架说的很清楚,适合刚接触语音识别的小伙伴看一下。我转来备份一下。语音交互将会成为新的入口,也是各大公司务必争夺的资源之一,资源是指数据,不是技术,因为技术...转载 2019-05-06 18:58:28 · 8710 阅读 · 0 评论 -
CTC
转自:https://blog.youkuaiyun.com/luodongri/article/details/77005948白话CTC(connectionist temporal classification)算法讲解2017年08月09日 17:24:21阅读数:7357 CTC是计算一种损失值,主要的优点是可以对没有对齐的数据进...转载 2018-07-02 10:21:08 · 1725 阅读 · 0 评论 -
梅尔频率倒谱系数(MFCC)
原文地址:https://blog.youkuaiyun.com/zouxy09/article/details/9156785/这学期有《语音信号处理》这门课,快考试了,所以也要了解了解相关的知识点。呵呵,平时没怎么听课,现在只能抱佛脚了。顺便也总结总结,好让自己的知识架构清晰点,也和大家分享下。下面总结的是第四个知识点:MFCC。因为花的时间不多,所以可能会有不少说的不妥的地方,还望大家指正。谢谢。 ...转载 2018-06-05 11:08:45 · 1098 阅读 · 0 评论