D-Vector 小型的文本相关说话人确认系统的深度神经网络

论文：Variani E, Lei X, McDermott E, et al. Deep neural networks for small footprint text-dependent speaker verification. ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings[C]. 2014.

D-Vector 基于的猜想（hypothesis）：训练之后的 DNN，它的最后的隐藏层输出已经学到了紧凑的说话人表示，能够表示未见的说话人。

D-Vector 使用最后的隐藏层的原因：

相对于输出层的规模小，减少运算时间；

对未见的说话人有更好的泛化能力。

摘要

文本无关的说话人确认系统是使用固定文本或者提示词的声纹验证系统。小型(Small Footpring)系统意味着系统的计算量与规模是相对较小的，例如 600,000 参数的深度神经网络(Deep Neural Network, DNN)。E. Variani 提出了一种 DNN 嵌入的方法——d-vector。D-Vector 来自 DNN 最后的隐藏层，表示特定语音段上的说话人特性。结果表明：在无噪声和有噪声的场景中，1）d-vector 与 i-vector 性能相当，2）d-vector 与 i-vector 的融合系统优于 i-vector，3）d-vector 对噪声更加鲁棒，4）低错误拒绝下，d-vector 优于 i-vector。

方法

论文中对比了 i-vector 系统与 d-vector 系统在无噪声场景和有噪声场景的性能，两个系统如下：

i-vector 系统
- 模型：输入 $\mapsto$ UBM $\mapsto$ T $\mapsto$ PLDA
- 输入：共 39 维，13 感知线性预测系数(PLP) + $\Delta$ + $\Delta\Delta$
- UBM：三种高斯成分数量的 GMM，分别是 1024、256 与 128，训练过程使用 7 次 EM 迭代
- T：三种维度 i-vector，分别是 300、200 与 100，训练过程采用 PCA 初始化，10 次 EM 迭代
- PLDA： LDA $\mapsto$ PLDA $\mapsto$ t-norm，其中 LDA 两种维度，分别是 200 与 100
d-vector 系统
- 模型：输入 $\mapsto$ Maxout DNN