深度卷积神经网络的集成尺度空间模型用于手语识别
1. 引言
手语识别(SLR)对聋人群体的顺畅交流至关重要。然而,由于手语并非全球通用语言,能理解它的人较少,这给聋人与听力正常人群的交流带来了困难。书面交流不仅繁琐,而且速度慢,对于聋人群体来说,他们在书写口语方面通常不够熟练。
过去几年,尽管在这一领域进行了大量研究,但手语识别仍然是一项艰巨的任务。手语的解读需要实时同时理解多模态数据,如面部表情、身体姿势、手部姿势和手部动作。即使是静态的美国手语(ASL)识别也面临挑战,一些视觉上相似但不同的手势,仅通过拇指位置等细微差别来区分,不同的签名者和拍摄视角也会导致同一手势被不同地解读。
为了解决这些问题,研究人员提出了Sign - Net,这是一种专门用于识别手指拼写的ASL静态手势图像的新型CNN集成模型。传统的CNN架构(如AlexNet)在处理高细节图像时表现出色,但在处理低细节的手势和字符图像时,准确性会受到影响。Sign - Net结合了尺度空间理论,有望取得更好的效果。
这项研究的具体贡献包括:
- 训练了一个集成的尺度空间CNN模型,由深度高分辨率网络(HRN)和浅层低分辨率网络(LRN)组成,用于识别手语中的手指拼写。该集成系统考虑了24个英文字母(不包括有动态手势的j和z)和0 - 9的数字,共34个类别。
- 创建了一个新的数据集,每个类别有超过1000张图像,并且测试图像来自训练集中未包含的不同签名者。
2. 相关工作
CNN的特征提取技术可以减少原始图像预处理的负担,降低系统的整体复杂性。最初,CNN主要用于目标识别任务,现在也在其他领域得到了应用。
以下
超级会员免费看
订阅专栏 解锁全文

21

被折叠的 条评论
为什么被折叠?



