2019-SPEAKER RECOGNITION FOR MULTI-SPEAKER CONVERSATIONS USING X-VECTORS

本文介绍了一种使用X-向量进行说话人识别的技术,该技术适用于多发言人对话场景。通过实验证明,这种方法在野外环境下表现优秀,尤其是在二值化后,错误率显著降低。此外,提出了一种去除聚类阶段域敏感阈值的方法,该方法具有较强的鲁棒性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

SPEAKER RECOGNITION FOR MULTI-SPEAKER CONVERSATIONS USING X-VECTORS
David Snyder , Daniel Garcia-Romero, Gregory Sell, Alan McCree, Daniel Povey, Sanjeev Khudanpur
Center for Language and Speech Processing & Human Language Technology Center of Excellence
The Johns Hopkins University, Baltimore, MD 21218, USA
icassp 2019

近年来,将话语映射到固定维度嵌入的深层神经网络已经成为说话人识别的最新技术。我们之前的工作引入了x-向量,这是一种对说话人识别和二值化都非常有效的嵌入方法。本文结合前人的工作,将其应用于多人会话中的说话人识别问题。我们在野外测量说话者的性能,并报告我们认为在此数据集上发布的最佳错误率。此外,我们发现,当有多个扬声器时,二值化显著降低了错误率,同时保持了单扬声器录音的优异性能。最后,我们介绍了一种易于实现的方法来去除通常用于二值化系统的聚类阶段的域敏感阈值。该方法对域位移具有较强的鲁棒性,并取得了与阈值调谐方法相似的结果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值