【kaldi】声纹识别之X-vector

最新推荐文章于 2022-10-29 21:53:08 发布

原创

最新推荐文章于 2022-10-29 21:53:08 发布 · 1.8w 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文介绍了X-vector在声纹识别中的优势，包括快速训练、无需特定语种训练集和良好的识别率。Kaldi提供了现成的示例，如sre16/v2和voxceleb/v2，用于研究。X-vector网络结构包含帧级和段级特征，通过embedding层提取特征进行PLDA打分。在训练过程中，注意Kaldi代码中的小问题，如nnet3-combine脚本的参数调整。文章还概述了从数据准备、特征提取、数据增强到训练和评分的完整流程。

一．搞了几天，首先说一下X-vector的优势：

1.训练速度非常快

2.无需特定语种的训练集，由于设置一个embedding层进行提取特征直接进行plda打分

3.识别率不错

二．Kaldi中有现成的例子，可供研究

https://github.com/kaldi-asr/kaldi/tree/master/egs/sre16/v2

https://github.com/kaldi-asr/kaldi/tree/master/egs/voxceleb/v2

上面是kaldi的两个例子

根据《X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION》

最低0.47元/天解锁文章

5 条评论

dlrow!olleh 2019.04.01
为什么不继续写下去？哭了

落雪snowflake 2019.01.07
我知道数据集我用学校邮箱申请呢但是在服务器上我貌似下载不下来你的数据集是怎么下载下来的
- 搬砖民工金币回复落雪snowflake 2019.01.16
  可以下载下来，不太清楚为什么下不下来，是没网速吗
- 搬砖民工金币回复落雪snowflake 2019.01.15
  [reply]weixin_38858860[/reply] 直接用aishell或者libaispeech等公开语料跑就行了，只要数据量大就行，我的是用aishell2和librispeech，vox2也试过，训练集和测试集不一定是相同语种。

落雪snowflake 2019.01.07
这个数据集怎么找

评论 5

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

搬砖民工金币 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。