一.搞了几天,首先说一下X-vector的优势:
1.训练速度非常快
2.无需特定语种的训练集,由于设置一个embedding层进行提取特征直接进行plda打分
3.识别率不错
二.Kaldi中有现成的例子,可供研究
https://github.com/kaldi-asr/kaldi/tree/master/egs/sre16/v2
https://github.com/kaldi-asr/kaldi/tree/master/egs/voxceleb/v2
上面是kaldi的两个例子
- 根据《X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION》

本文介绍了X-vector在声纹识别中的优势,包括快速训练、无需特定语种训练集和良好的识别率。Kaldi提供了现成的示例,如sre16/v2和voxceleb/v2,用于研究。X-vector网络结构包含帧级和段级特征,通过embedding层提取特征进行PLDA打分。在训练过程中,注意Kaldi代码中的小问题,如nnet3-combine脚本的参数调整。文章还概述了从数据准备、特征提取、数据增强到训练和评分的完整流程。
最低0.47元/天 解锁文章
1万+





