Deep Speaker说话人识别系统笔记

这篇文章是对End-to-end text-dependent speaker verification.和 Neural Network-Based Speaker Embeddings for EndTo-End Speaker Verification. 这两篇文章的思想进一步改进的。

Deep Speaker的思想是将说话人语音特征映射到一个超平面,通过余弦相似度来测量说话人的相似度

首先Deep Speaker使用DNN抽取语音帧级别的特征,然后池化生成说话人的embedding

损失函数使用的是人脸识别中的三元组损失函数triplet-loss,最小化同一说话人之间的相似距离最大化不同说话人之间的相似距离

triplet-loss有三个点:anchor:一个特定的说话者的一句话; positive:同一说话者的另一句话;negative:不同说话者的一句话

其中{s_{i}}^{ap}是anchor a 与triplet i 的 positive p之间的相似度

预训练使用softmax和交叉熵提高模型的性能

预处理部分是将音频转换为64维的Fbank系数,使用与DNN-i-vector系统相同的VAD处理

训练模型是ResCNN和GRU

ResCNN是基于残差卷积神经网络来设计的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值