这篇文章是对End-to-end text-dependent speaker verification.和 Neural Network-Based Speaker Embeddings for EndTo-End Speaker Verification. 这两篇文章的思想进一步改进的。
Deep Speaker的思想是将说话人语音特征映射到一个超平面,通过余弦相似度来测量说话人的相似度
首先Deep Speaker使用DNN抽取语音帧级别的特征,然后池化生成说话人的embedding
损失函数使用的是人脸识别中的三元组损失函数triplet-loss,最小化同一说话人之间的相似距离最大化不同说话人之间的相似距离
triplet-loss有三个点:anchor:一个特定的说话者的一句话; positive:同一说话者的另一句话;negative:不同说话者的一句话
其中是anchor
与triplet
的 positive
之间的相似度
预训练使用softmax和交叉熵提高模型的性能
预处理部分是将音频转换为64维的Fbank系数,使用与DNN-i-vector系统相同的VAD处理
训练模型是ResCNN和GRU
ResCNN是基于残差卷积神经网络来设计的