SPEAKER RECOGNITION FOR MULTI-SPEAKER CONVERSATIONS USING X-VECTORS
David Snyder , Daniel Garcia-Romero, Gregory Sell, Alan McCree, Daniel Povey, Sanjeev Khudanpur
Center for Language and Speech Processing & Human Language Technology Center of Excellence
The Johns Hopkins University, Baltimore, MD 21218, USA
icassp 2019
近年来,将话语映射到固定维度嵌入的深层神经网络已经成为说话人识别的最新技术。我们之前的工作引入了x-向量,这是一种对说话人识别和二值化都非常有效的嵌入方法。本文结合前人的工作,将其应用于多人会话中的说话人识别问题。我们在野外测量说话者的性能,并报告我们认为在此数据集上发布的最佳错误率。此外,我们发现,当有多个扬声器时,二值化显著降低了错误率,同时保持了单扬声器录音的优异性能。最后,我们介绍了一种易于实现的方法来去除通常用于二值化系统的聚类阶段的域敏感阈值。该方法对域位移具有较强的鲁棒性,并取得了与阈值调谐方法相似的结果。