42、Speech@SCIS:用于印度人群语音 - 面部跨模态研究的标注视频数据集

Speech@SCIS:用于印度人群语音 - 面部跨模态研究的标注视频数据集

1. 引言

印度拥有超过15亿人口,如此庞大的单一族群规模为生物识别研究带来了巨大机遇,其中基于语音的研究是重点方向之一。长期以来,语音研究一直是科研界的重要目标,人类利用语音创造了诸多惊人技术,在理解人体和众多实际应用中发挥了重要作用。

近年来,全球研究人员聚焦于语音 - 面部跨模态生物特征匹配研究,旨在探索人类面部与语音之间的关系。该研究在安全、法医、生物识别认证等领域具有广泛应用。例如,已有研究建立了人类面部、发音结构与语音之间的有趣联系,还有研究提出了通过语音生成人脸的GAN架构,以及从语音识别说话者面部的方法,另外还有关于“会说话的脸”的研究,即根据静态面部图像和语音生成模仿面部说话的短视频。然而,这些研究大多未考虑到种族等具体细节。

由于印度族群人口众多,该研究领域在印度有诸多实际应用场景。比如,有研究探讨了基于语音访问泰卢固语的Kisan信息系统;在法医领域,印度大量的电话银行诈骗案件中,犯罪者的语音是重要证据,对语音的恰当分析和人脸重建算法可大大简化调查过程;印度政府也对利用面部和语音进行跨模态识别印度公民感兴趣。

但目前,收集针对印度族群的高质量、标注良好的语音和面部数据库仍是科研界面临的一大难题。收集语音和面部数据集本身就存在诸多困难,语音的多种应用需求导致需要不同类型的语音数据集,收集合适的数据集耗时耗力且成本高昂,同时也缺乏一个完善的、针对印度人群的标注视频数据集。

为解决这些问题,我们提出了Speech@SCIS数据集,这是一个针对印度族群的性别和年龄标注的视频数据集,通过我们开发的在线网络应用程序收集,并存储在云端。我们手动筛选了这些视

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值