
声纹识别
平凡的兵
AI的实践者
展开
-
声纹识别的三生三世
0. 什么是声纹识别通俗的讲,就是给我一句话,判断出这句话是谁讲的。再细分一下,分为说话人确认(speaker verification)和说话人识别(speaker identification)。说话人确认:Is this Bob's voice ?说话人识别: whose voice is this ? 1. 第一代声纹识别UBM-MAP方案step...原创 2018-05-19 17:41:19 · 1073 阅读 · 0 评论 -
i-vector本质剖析
1. i-vector的由来基于因子分析理论,句子h的超向量可以描述成 其中为ubm模型的均值超向量,即为i-vector。2. i-vector的计算2.1 T矩阵的估计为句子h的观察特征,可以对应于上面的,依据上式进行如下分布假设:服从正态分布N(0,I)基于最大似然准则估计T矩阵,利用到EM算法EM:先初始化T,估计出,再依据估计T,反复迭代2.2 i...原创 2018-10-13 13:58:18 · 4971 阅读 · 4 评论 -
PLDA本质剖析
1. 为什么会有PLDA,解决了什么问题上一篇文章讲解了声纹领域开创式进展i-vector方案,该方案为了简化操作,将所有的可变因子视为一个总的变化因子,这估计也是TV系统(total variabililty)称呼的由来,TV系统公式如下,其中w因子既包含说话人因子,又包含信道等其他因子,这样在跨信道或者跨场景情况下效果不佳。PLDA就是为了解决此问题。2. 什么是PLDA2.1...原创 2018-10-20 13:35:31 · 1755 阅读 · 0 评论