i-vector 分数校准:原理与实践
1. 引言
在语音识别等领域,i-vector 系统会输出特定于开发系统所使用的数据和参数的原始分数。然而,这些原始分数难以直接解释,也难以确定用于验证任务的一致决策阈值。为解决这些难题,研究人员开发了分数归一化和分数校准技术。
2. 分数归一化与校准概述
- 分数归一化 :原始分数相对于“冒名者群组”进行归一化。此操作在评估检测误差权衡之前进行,可提高系统的准确性及其对新数据的适应能力。
- 分数校准 :将原始分数映射到概率,从而更好地理解系统在决策中的置信度。
3. 下载 i-vector 系统和数据集
要下载适用于说话人识别的预训练 i-vector 系统,可调用 speakerRecognition 函数。该函数返回的 ivectorSystem 是在 LibriSpeech 数据集上训练的,该数据集包含 16 kHz 的英语录音。
ivs = speakerRecognition;
同时,需下载 PTDB - TUG 数据集。使用 loadDataset 函数下载数据集并将其从 48 kHz 重采样到 16 kHz(即 i-vector 系统训练时使用的采样率)。该函数返回以下 audioDatastore 对象:
-
超级会员免费看
订阅专栏 解锁全文
1190

被折叠的 条评论
为什么被折叠?



