I-MSV 2022:多语言多传感器说话人验证挑战解读
1. 引言
说话人验证(Speaker Verification,SV)是利用说话人的语音样本来验证其身份的任务。过去五十年来,SV技术取得了巨大发展,广泛应用于语音考勤系统、银行交易认证等领域。然而,当测试涉及多种语言和传感器时,系统性能会受到影响,限制了SV系统的可扩展性。
在印度,人们日常交流使用约122种主要语言和1599种其他语言,且多数人会多种语言。这种语言和传感器的灵活性可能限制SV技术的应用范围。因此,收集了印度理工学院古瓦哈蒂多变量(IITG - MV)数据,该数据使用五种不同传感器,来自印度不同地理位置、母语、方言和口音各异的人群。
目前,关于多语言和领域不匹配场景下SV开发的研究较少。现有研究主要在特征、模型和分数层面减少语言和领域不匹配的影响,但使用的内部数据集或公开数据存在局限性,内部数据在说话人、语言和传感器数量上受限,公开数据虽有大量说话人、语言和环境变化,但缺乏合适的标注。本次挑战旨在解决这些问题,邀请社区开发语言和传感器不变的说话人表示。
本次挑战使用IITG - MV第一阶段数据集的对话录音,将其分为开发集、注册集、公共测试集和私有测试集。同时,挑战分为受限和不受限两个子任务,受限子任务鼓励社区使用有限训练数据开发SV系统,不受限子任务则观察使用充足训练数据开发的SV技术的性能。此外,还为参与者提供了基于X - vector框架的基线系统。
2. 挑战规则
挑战包含两个子任务:
- 受限SV :参与者在开发SV系统时,只能使用受限SV挑战发布的语音数据。
-
超级会员免费看
订阅专栏 解锁全文
742

被折叠的 条评论
为什么被折叠?



