D-Vector 小型的文本相关说话人确认系统的深度神经网络

D-Vector 小型的文本相关说话人确认系统的深度神经网络

论文:Variani E, Lei X, McDermott E, et al. Deep neural networks for small footprint text-dependent speaker verification. ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings[C]. 2014.

D-Vector 基于的猜想(hypothesis):训练之后的 DNN,它的最后的隐藏层输出已经学到了紧凑的说话人表示,能够表示未见的说话人。

D-Vector 使用最后的隐藏层的原因:

  1. 相对于输出层的规模小,减少运算时间;

  2. 对未见的说话人有更好的泛化能力。

摘要

文本无关的说话人确认系统是使用固定文本或者提示词的声纹验证系统。小型(Small Footpring)系统意味着系统的计算量与规模是相对较小的,例如 600,000 参数的深度神经网络(Deep Neural Network, DNN)。E. Variani 提出了一种 DNN 嵌入的方法——d-vector。D-Vector 来自 DNN 最后的隐藏层,表示特定语音段上的说话人特性。结果表明:在无噪声和有噪声的场景中,1)d-vector 与 i-vector 性能相当,2)d-vector 与 i-vector 的融合系统优于 i-vector,3)d-vector 对噪声更加鲁棒,4)低错误拒绝下,d-vector 优于 i-vector。

方法

论文中对比了 i-vector 系统与 d-vector 系统在无噪声场景和有噪声场景的性能,两个系统如下:

  1. i-vector 系统

    • 模型:输入 ↦ \mapsto UBM ↦ \mapsto T ↦ \mapsto PLDA
    • 输入:共 39 维,13 感知线性预测系数(PLP) + Δ \Delta Δ + Δ Δ \Delta\Delta ΔΔ
    • UBM:三种高斯成分数量的 GMM,分别是 1024、256 与 128,训练过程使用 7 次 EM 迭代
    • T:三种维度 i-vector,分别是 300、200 与 100,训练过程采用 PCA 初始化,10 次 EM 迭代
    • PLDA: LDA ↦ \mapsto PLDA ↦ \mapsto t-norm,其中 LDA 两种维度,分别是 200 与 100
  2. d-vector 系统

    • 模型:输入 ↦ \mapsto Maxout DNN

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值