深度说话人嵌入校准方法与语音可懂度预测研究
在语音技术领域,说话人识别系统的校准以及语音可懂度的预测是两个重要的研究方向。下面将详细介绍相关的实验设置、结果以及一种新的语音可懂度预测方法。
说话人识别系统校准实验
实验设置
- 训练数据集 :使用了一个固定的训练数据集,包含来自各种公共和私人数据集的电话和麦克风数据。具体包括 Switchboard2 的 1、2、3 阶段数据、Switchboard Cellular 数据、2004 年至 2010 年以及 2019 年的 NIST SRE 数据、VoxCeleb 1 和 2 数据集,还有扩展版的俄罗斯语音子语料库 RusTelecom v2。为了增加训练数据的数量和多样性,采用了标准的 Kaldi 增强方法。
- 测试数据集和指标 :实验评估使用了最流行的数据集,如 NIST2016 eval、NIST2019 eval、VOiCES eval 和私人 STC 通话子集。主要用于评估在注册和测试领域不同的具有挑战性的场景下的校准性能。
- 基础 STC 通话包含 1000 名说话人的语音,在各种噪声条件下同时通过电话和多个麦克风设备收集。包含文本相关和文本无关的场景。实验中使用了跨通道协议,即 30 秒的电话注册和 5 秒的麦克风测试,测试数据通过远场麦克风阵列收集。
- 评估说话人识别系统性能的指标包括等错误率(EER)和最小检测成本函数(C0.05 min),同时使用传统的实际检测成本函数(C0.05 act)来评估系统的校准性能。
超级会员免费看
订阅专栏 解锁全文
770

被折叠的 条评论
为什么被折叠?



