i-vector分数归一化:提升说话人识别系统性能
1. 引言
在说话人识别系统中,i-vector系统输出的原始分数与开发系统所使用的数据和参数密切相关,这使得对分数的解释以及为验证任务找到一致的决策阈值变得困难。为解决这些难题,研究人员开发了分数归一化和分数校准技术。
2. 分数归一化和校准技术概述
- 分数归一化 :原始分数相对于“冒名者群组”进行归一化处理,该操作在评估检测误差权衡之前进行,可提高系统的准确性和对新数据的适应能力。
- 分数校准 :将原始分数映射到概率,有助于更好地理解系统决策的置信度。
在本文示例中,我们将重点应用分数归一化技术到i-vector系统,使用余弦相似度评分(CSS)进行说明,虽然概率线性判别分析(PLDA)评分也可通过归一化得到改善,但效果相对不那么显著。
3. 下载i-vector系统和数据集
要下载适用于说话人识别的预训练i-vector系统,可调用 speakerRecognition 函数:
ivs = speakerRecognition();
该预训练的i-vector系统在LibriSpeech测试集上使用CSS时,实现了约6.73%的等错误率(EER),使用PLDA时的EER明显更好,但由于CSS更简单,本文仅研究CSS。可使用以下代码进行检测误差权衡分析:
超级会员免费看
订阅专栏 解锁全文

509

被折叠的 条评论
为什么被折叠?



