人们对自己声音的好奇、认知和应用在当今智能家居的催化下,显现出空前高涨的渴望和需求。而现实状况是,在语音算法方面在近讲和远讲还有很多问题需要解决,特别是远讲的场景。众所周知,大多数公开可用的数据库是文本无关的单通道近讲数据。

近日昆山杜克大学与AISHELL共同推出了一个基于远场文本相关的说话人认证数据库﹣HI-MIA发布在语音数据开源平台openslr上(http://www.openslr.org/85/)。并发表在论文“HI-MIA : A FAR-FIELD TEXT-DEPENDENT SPEAKER VERIFICATION DATABASE AND THE BASELINES”中,介绍了HI-MIA数据库,还提出了一套端到端的神经网络基线系统,而研究表明这套系统在远讲注册远讲测试任务中EER可以达到3.29%,在近讲注册远讲测试任务中EER可以达到4.02%。
HI-MIA数据库

HI-MIA,是一个智能家居场景下的固有唤醒词数据库。该数据库共包含340个说话人,每个说话人语料包含了近场麦克风拾音和远场麦克风阵列的多通道拾音。它可用于声纹识别、语音唤醒识别等研究。HI-MIA包含两个子数据库分别覆盖近讲高保真麦克风、1/3/5米圆型阵列的数据,254人的AISHEL

昆山杜克大学与AISHELL合作发布的HI-MIA数据库,是一个针对智能家居场景的远场文本相关说话人认证数据库。包含340个说话人的近场和远场多通道数据,适用于声纹识别和语音唤醒研究。基线系统在远讲任务中表现出色,展示了在有限的文本相关数据下训练和注册数据扩充的有效性。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



