19、深度说话人嵌入校准方法与语音可懂度预测研究

深度说话人嵌入校准方法与语音可懂度预测研究

在语音技术领域,说话人识别系统的校准以及语音可懂度的预测是两个重要的研究方向。下面将详细介绍相关的实验设置、结果以及一种新的语音可懂度预测方法。

说话人识别系统校准实验
实验设置
  • 训练数据集 :使用了一个固定的训练数据集,包含来自各种公共和私人数据集的电话和麦克风数据。具体包括 Switchboard2 的 1、2、3 阶段数据、Switchboard Cellular 数据、2004 年至 2010 年以及 2019 年的 NIST SRE 数据、VoxCeleb 1 和 2 数据集,还有扩展版的俄罗斯语音子语料库 RusTelecom v2。为了增加训练数据的数量和多样性,采用了标准的 Kaldi 增强方法。
  • 测试数据集和指标 :实验评估使用了最流行的数据集,如 NIST2016 eval、NIST2019 eval、VOiCES eval 和私人 STC 通话子集。主要用于评估在注册和测试领域不同的具有挑战性的场景下的校准性能。
    • 基础 STC 通话包含 1000 名说话人的语音,在各种噪声条件下同时通过电话和多个麦克风设备收集。包含文本相关和文本无关的场景。实验中使用了跨通道协议,即 30 秒的电话注册和 5 秒的麦克风测试,测试数据通过远场麦克风阵列收集。
    • 评估说话人识别系统性能的指标包括等错误率(EER)和最小检测成本函数(C0.05 min),同时使用传统的实际检测成本函数(C0.05 act)来评估系统的校准性能。
    </
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值