Speech@SCIS:用于印度人群语音 - 面部跨模态研究的标注视频数据集
1. 引言
印度拥有超过15亿人口,如此庞大的单一族群规模为生物识别研究带来了巨大机遇,其中基于语音的研究是重点方向之一。长期以来,语音研究一直是科研界的重要目标,人类利用语音创造了诸多惊人技术,在理解人体和众多实际应用中发挥了重要作用。
近年来,全球研究人员聚焦于语音 - 面部跨模态生物特征匹配研究,旨在探索人类面部与语音之间的关系。该研究在安全、法医、生物识别认证等领域具有广泛应用。例如,已有研究建立了人类面部、发音结构与语音之间的有趣联系,还有研究提出了通过语音生成人脸的GAN架构,以及从语音识别说话者面部的方法,另外还有关于“会说话的脸”的研究,即根据静态面部图像和语音生成模仿面部说话的短视频。然而,这些研究大多未考虑到种族等具体细节。
由于印度族群人口众多,该研究领域在印度有诸多实际应用场景。比如,有研究探讨了基于语音访问泰卢固语的Kisan信息系统;在法医领域,印度大量的电话银行诈骗案件中,犯罪者的语音是重要证据,对语音的恰当分析和人脸重建算法可大大简化调查过程;印度政府也对利用面部和语音进行跨模态识别印度公民感兴趣。
但目前,收集针对印度族群的高质量、标注良好的语音和面部数据库仍是科研界面临的一大难题。收集语音和面部数据集本身就存在诸多困难,语音的多种应用需求导致需要不同类型的语音数据集,收集合适的数据集耗时耗力且成本高昂,同时也缺乏一个完善的、针对印度人群的标注视频数据集。
为解决这些问题,我们提出了Speech@SCIS数据集,这是一个针对印度族群的性别和年龄标注的视频数据集,通过我们开发的在线网络应用程序收集,并存储在云端。我们手动筛选了这些视
超级会员免费看
订阅专栏 解锁全文
1909

被折叠的 条评论
为什么被折叠?



