
语音识别
异乡客
这个作者很懒,什么都没留下…
展开
-
至今看到的最为详细的IVector推导
搜到了大神 Yu Zhang所写的Useful Derivations for i-Vector Based Approachto Data Clustering in Speech Recognition一文,详细推导了Ivector的计算公式,有兴趣可以到下载原创 2020-03-05 17:58:55 · 749 阅读 · 0 评论 -
webrtc 之vad的理解
1、语音信号的采样率是8kHz,因此其最高频率必须限制在4kHz以下;2、首先把语音信号划分为10ms一帧数据进行计算,帧与帧之间不重叠;3、将一帧信号分解到六个频段:80~250,250~500,500~1000,1000~2000,2000~3000,3000~4000,4、计算每个频率内的信号能量,取log10,我们称之为对数能量;5、下面的话很重要,很重要,很重要:在每...原创 2020-01-06 15:42:04 · 2233 阅读 · 1 评论