基于计算机视觉的印度手语字母识别系统
1. 引言
在当今社会,听力障碍人群面临着诸多沟通难题。据世界卫生组织(WHO)2021年4月的数据,全球超4.3亿人(约占全球人口的5%)存在听力损失问题,在印度,约6.3%的人口包括男性、女性和儿童都有听力障碍。手语是听力障碍者之间交流的主要方式,但正常人往往难以理解。大多数听力障碍人群依赖翻译人员进行交流,书面交流对他们来说也并非有效方式,因为他们通常不擅长读写口语。
因此,本项目旨在识别印度手语(ISL)中的字母、数字和一些紧急词汇,无需专家介入,帮助手语使用者在紧急情况下进行交流。手语不仅是听力障碍者的主要交流方式,在某些情况下,正常人也会使用,同时对手自闭症、唐氏综合征、言语失用症等人群也非常有用。
2. 动机
开发此系统的动机在于帮助听力障碍人群与外界更好地交流。该系统可用于银行、医院、警察局和邮局等场所,让他们能够表达如“开户”“取款”“金额”等词汇,以及“帮助”“停止”“姓名”“是”和“否”等常用词汇。由于对ISL的研究较少,此系统将对使用ISL的人群大有裨益。此外,加入紧急词汇不仅能让残疾人与他人更快地交流,还能推动理解和支持他们的自主系统的发展。
3. 挑战
ISL识别面临诸多挑战。与美国手语(ASL)相比,ISL缺乏标准数据集,这阻碍了该领域的研究。ISL的识别较为复杂,因为它需要双手配合,且双手可能会重叠,这增加了理解手势特征的难度。此外,手语包含数千个由字母组成的单词,这些单词的手势可能相似,因此本项目选择了一部分常用词汇作为数据集。
深度学习和计算机视觉技术的发展为手语识别提供了可能。本项目采用卷积神经网络(CNN)对印度手语
超级会员免费看
订阅专栏 解锁全文
36

被折叠的 条评论
为什么被折叠?



