用于听障人士手语分类与识别的深度学习策略
1. 引言
手语是一种通过手动手势或视觉线索传达意义的交流形式,是聋哑或听力受损人士与听力正常人士日常交流的主要方式。目前全球有 138 至 300 种不同形式的手语,且随着人们的交流互动还在不断发展。
手语识别(SLR)是一个复杂的过程,具有很大的研究前景。据世界卫生组织统计,全球约 5% 的人口受听力损失影响,预计到 2050 年,全球听力障碍人数将达 9 亿。因此,SLR 受到了广泛关注,它有助于消除聋哑人群体的语言障碍,具体体现在:
- 减轻聋哑人群体的挫败感。
- 消除沟通障碍,改善交流效果。
SLR 主要有两种模式:
- 基于传感器 :在靠近手语者的位置放置传感器,可记录其头部、手指动作及整体运动。配备传感器的手套能跟踪手语者动作并解读其意图,相较于基于视觉的 SLR,效果更显著。
- 基于视觉 :利用摄像头或网络摄像头识别手势,分析图像或视频,提取与手掌、手指和动作相关的元素,再进行分类。但可能因光线不足、背景干扰或图像模糊导致误分类,且在预处理、特征提取和分类时需特别注意。
2. 深度学习在 SLR 中的应用
2.1 常见深度学习模型
为构建高性能的 SLR 系统,研究人员进行了大量研究。然而,由于多种手部动作和面部表情增加了 SLR 的复杂性,仍有许多问题有待解决。以下是一些常见的深度学习模型在 SLR 中的应用:
- 循环神经网络(RNN) :适用于自然语言处理任务,如语言翻译、问答、图像和
超级会员免费看
订阅专栏 解锁全文
41

被折叠的 条评论
为什么被折叠?



