42、Speech@SCIS：用于印度人群语音 - 面部跨模态研究的标注视频数据集

alice7model

于 2025-07-12 14:41:53 发布

阅读量85

点赞数

CC 4.0 BY-SA版权

分类专栏：智能创新与技术应用的新纪元文章标签： Speech@SCIS 印度语音数据集跨模态生物识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/alice7model/article/details/149622452

智能创新与技术应用的新纪元专栏收录该内容

55 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

Speech@SCIS：用于印度人群语音 - 面部跨模态研究的标注视频数据集

1. 引言

印度拥有超过15亿人口，如此庞大的单一族群规模为生物识别研究带来了巨大机遇，其中基于语音的研究是重点方向之一。长期以来，语音研究一直是科研界的重要目标，人类利用语音创造了诸多惊人技术，在理解人体和众多实际应用中发挥了重要作用。

近年来，全球研究人员聚焦于语音 - 面部跨模态生物特征匹配研究，旨在探索人类面部与语音之间的关系。该研究在安全、法医、生物识别认证等领域具有广泛应用。例如，已有研究建立了人类面部、发音结构与语音之间的有趣联系，还有研究提出了通过语音生成人脸的GAN架构，以及从语音识别说话者面部的方法，另外还有关于“会说话的脸”的研究，即根据静态面部图像和语音生成模仿面部说话的短视频。然而，这些研究大多未考虑到种族等具体细节。

由于印度族群人口众多，该研究领域在印度有诸多实际应用场景。比如，有研究探讨了基于语音访问泰卢固语的Kisan信息系统；在法医领域，印度大量的电话银行诈骗案件中，犯罪者的语音是重要证据，对语音的恰当分析和人脸重建算法可大大简化调查过程；印度政府也对利用面部和语音进行跨模态识别印度公民感兴趣。

但目前，收集针对印度族群的高质量、标注良好的语音和面部数据库仍是科研界面临的一大难题。收集语音和面部数据集本身就存在诸多困难，语音的多种应用需求导致需要不同类型的语音数据集，收集合适的数据集耗时耗力且成本高昂，同时也缺乏一个完善的、针对印度人群的标注视频数据集。

为解决这些问题，我们提出了Speech@SCIS数据集，这是一个针对印度族群的性别和年龄标注的视频数据集，通过我们开发的在线网络应用程序收集，并存储在云端。我们手动筛选了这些视

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。