01-说话人语音识别

语音转文本的github项目:

https://github.com/buriburisuri/speech-to-text-wavenet

GMM(Gauss Mixture Model高斯混合模型)在说话人识别中的应用:

1.取出静音:在能量高低的地方去除静音+过零率

   设置阈值:No1设置为能量的阈值(能量搞的保留、能力低的噪声去掉)、过零率的阈值(把数值低的保留、多余的抛弃)

                 

2、提取声音的特征:(语音识别的特征提取)

             

    物理模型特征:日本学者研究了一个人的声道的模型,用物理的模型形象的模拟声道物理特征;

                                 

    是一种有重复的采样的过程,每隔一段时间进行采样的过程,以此类推.....

使用MEL迈二道夫的物理模型进行数据提取,每隔10ms就会提取出一个特征。每一秒都会提取出100个特征,再使用

  

             text independent  speech  recognition 与内容无关的说话人识别;

             text dependence speech  recognition  与内容有关的说话人识别;

例子:

        设置条件  30秒的语音识别我们需要估计的参数的个数是4671个(EM算法用于参数估计)

                                                      

                                                                                                                                                       

缺点:  GMM如果加入噪声,就会改变Xi样本原有的一个高斯分布的规律,导致识别的效果变差;

 

 

3、HMM隐马尔科夫模型:

                

               

说明:

     输入:     O1    O2   O3  O4   O5.....Ot 特征向量,每个10ms的间隔不断的向前推进,不断的提取语音特征;

      隐含状态   q1    q2   q3   q4   q5   q6   q7 .....  qT

例如: 微信中的10秒的语音输入, 通过切割每隔10ms的语音特征进行识别,识别说话人的意思;

问题: 已经知道语音的长度或者语音时间长度,但是我们不确定每个字词的时间戳的切割的方法,不知道如何的对应

应用:在视频当中一个动作的连续的识别,一个连续动作的理解;

解决途径: 将语音使用K-Mean  K均值的聚类的方法,K means Clusting ,但是效率和识别率的比较低,不过这也是一种思路。

 

HMM的三个问题;

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值