
语音识别
醒了的追梦人
生命不息,奋斗不止,Fighting!!!
展开
-
语言模型--n-gram解读
n元语法是一个非常经典的语言模型。一、N-Gram的原理N-Gram是基于一个假设:第n个词出现与前n-1个词相关,而与其他任何词不相关。(这也是隐马尔可夫当中的假设。)整个句子出现的概率就等于各个词出现的概率乘积。各个词的概率可以通过语料中统计计算得到。假设句子T是有词序列w1,w2,w3…wn组成,用公式表示N-Gram语言模型如下:P(T)=P(w1)*p(w2)*p(w3)***p(...原创 2019-06-12 14:27:17 · 1989 阅读 · 1 评论 -
EMO-DB数据集介绍(即berlin的那个数据集)
首先想说的就是这个数据集,官方给的介绍也太敷衍了,完全是没有价值的介绍。EMO-DB数据集是由柏林工业大学录制的德语情感语音库,由10位演员(5男5女)对10个语句(5长5短)进行7种情感(中性/nertral、生气/anger、害怕/fear、高兴/joy、悲伤/sadness、厌恶/disgust、无聊/boredom)的模拟得到,共包含800句语料,采样率48kHz(后压缩到16kHz),...原创 2019-07-18 16:47:46 · 8811 阅读 · 10 评论 -
语音情感识别--语音(声音的预处理)
语音信号(声音是什么)声音是由物体振动产生的声波,是通过介质(空气或固体、液体)传播并能被人或动物听觉器官所感知的波动现象,最初发出振动的物体叫声源。声音(语音消息)的基本模拟形式是一种称为语音信号的声学波。语音信号可以通过麦克风转化成电信号,转换成语音波形图,如下图为消息"should we chase"的波形图。横坐标表示时间,纵坐标表示振幅。文本"should we chase"按照发音可...原创 2019-07-18 16:29:54 · 7636 阅读 · 13 评论 -
语音情感识别--理论篇
这是之前看的一些论文,然后提炼一下可能经常想看到的东西吧。语音情感识别主要包括语音语料库的采集,语音信号预处理,语音情感特征提取,语音情感分类。以上为语音情感识别主要步骤。语音情感特征提取(1):选择和提取合适的语音情感特征对提高识别准确率来说非常重要。目前,对语音信号的特征分析主要包括语音信号数字化,时域和频域的相关分析以及Gabor变换等。常用于语音情感识别研究的声学特征主要有韵律特征,...原创 2019-07-14 20:53:54 · 4505 阅读 · 7 评论 -
Tutorial--语音情感识别
OK,沉迷了快两个星期,终于有进展了啊啊啊!!!这段时间内心崩溃,感觉毫无思路,但是我没放弃!!!看了许多论文,然后代码在这个星期也终于调通了。不过还是有很多地方值得优化,后面再继续努力吧!其实我个人觉得语音识别这一块的商用还不够,情感识别就更别说了,而且识别率这一块有待提升。开始正题数据集用的是EMO-DB数据集。并以此充当训练集,测试集自己想用哪些音频就可以用哪些音频,但是命名和文件路...原创 2019-07-14 16:09:54 · 904 阅读 · 16 评论 -
语音情感识别--踩点篇
不管是情感语音识别,还是语音情感识别,含义是一样的,都是对带有情感的语音信号进行情感的正确判断。最传统的情感语音识别是基于机器学习下的有监督学习完成的。有监督,即:使用训练集训练出一个模型,然后使用该模型对测试集中的语音信号进行情感状态的正确判断。传统的机器学习可以理解为模式识别,即需要通过三个环节来完成操作:数据库、特征参数、识别网络。这三个环节均有大量的文献介绍,其中特征参数这一环节衍生出了...原创 2019-06-28 20:59:55 · 1502 阅读 · 0 评论 -
情感语音识别--数据库
语音情感数据库分为离散型和维度型。再有根据情感产生分类分为自然型,表演型,引导型。离散型指的是把情感分为高兴、愤怒、恐惧、惊奇、悲伤、厌恶等。连续型就是先采集,然后让其它人根据三维情感评分,情感维度包括:唤醒度、愉悦度、支配度。可以参考有关SAM的文章。(MEASURING EMOTION: THE SELF-ASSESSMENT MANIKIN AND THE SEMANTIC DIFFER...原创 2019-06-28 20:30:34 · 4792 阅读 · 6 评论 -
dropout--保持0.5的dropout来提高泛化能力
在实践中多次看到通过保持0.5的dropout来提高泛化能力,目前尚未深刻理解这个意思。。。附:理解dropout原创 2019-06-09 19:25:16 · 3769 阅读 · 0 评论 -
神经网络DNN--详解
深度神经网络(Deep Neural Networks, 以下简称DNN)是深度学习的基础,而要理解DNN,首先我们要理解DNN模型,下面我们就对DNN的模型与前向传播算法做一个总结。1.从感知机到神经网络感知机的模型是一个有若干输入和一个输出的模型,如下图:输出和输入之间学习到一个线性关系,得到中间输出结果:z=∑i=1mwixi+bz=∑i=1mwixi+b接着是一个神经元激活函数...原创 2019-06-09 11:00:41 · 58227 阅读 · 5 评论 -
语音识别--CTC算法
CTC算法全称叫:Connectionist temporal classification。从字面上理解它是用来解决时序类数据的分类问题,也即用来解决输入序列和输出序列难以一一对应的问题。举例来说,在语音识别中,我们希望音频中的音素和翻译后的字符可以一一对应,这是训练时的一个很天然的想法。但是要对齐是一件很困难的事,有人说话快,有人说话慢,每个人说话快慢不同,不可能手动地对音素和字符对齐,这样...原创 2019-06-02 20:18:55 · 926 阅读 · 1 评论 -
语音识别--汉明窗
首先,hamming()函数的作用是返回一个L点的对称海明窗列向量w。语音信号一般在10ms到30ms之间,我们可以把它看成是平稳的。为了处理语音信号,我们要对语音信号进行加窗,也就是一次仅处理窗中的数据。因为实际的语音信号是很长的,我们不能也不必对非常长的数据进行一次性处理。明智的解决办法就是每次取一段数据,进行分析,然后再取下一段数据,再进行分析。怎么仅取一段数据呢?一种方式就是构造一个...原创 2019-06-02 15:22:12 · 1895 阅读 · 0 评论 -
语音识别项目(数据集用的是thchs-30)
首选,我必须吐槽一下,这个数据集我下了快两个星期(ps:没错,你没有看错,我真的下了快两个星期,中途要么是网络断了,然后下载失败,要么是不知道是啥莫名其妙的原因导致下载失败,对了,中途那个网站好像还关闭过,当时我正在下载!!!)。在这里感谢一下师姐,她帮我请另一个师兄用迅雷最后下载好了,对,就是昨晚,我终于见到了完整的thchs-30数据集(哈哈哈)。OK,正式开始,首先我把这个项目总结一下:...原创 2019-06-13 16:05:48 · 6878 阅读 · 21 评论 -
Tutorial2--语音情感识别
感觉写这篇文章距离上一篇已经很久了(啊哈哈哈…),自己在8月的时候回去了这么久,所以做的东西也搁置了这么久。不过我还是觉得人还是需要放松的,回到家里,家里人一直给我做好吃的,到外面下馆子,然后自己又去西安玩了几天,感jio还行。现在回来了,继续开干,Fighting!!!之所以又写这篇是因为这次用的数据集和上一次不一样,所以得出来的模型也不一样,目前又重新在训练模型,继上次回去之前训练出来的模型...原创 2019-08-27 17:24:54 · 475 阅读 · 4 评论