基于骨架的手势识别特征融合网络
1. 引言
手势是人类独特的表达方式,具有自然、易懂和通用的特点,在人机交互领域具有巨大潜力。随着技术发展,人机交互需要更丰富、更具操作性且更符合自然人类交互的方式,而手势不受专业知识等因素限制,用户只需做简单手势就能与机器交互,极大提高了人机交互的便利性。
然而,手势识别也面临诸多挑战,如不同种族肤色变化、非肤色的光照变化、动态背景变化或多人同时做手势等。现有研究探索了多种特征表示模态,如 RGB 帧、光流、深度流、音频波或人体骨架等。其中,基于骨架的方法近年来在手势识别任务中受到越来越多关注,因其关注运动特征且对复杂背景有更强的适应性。
2. 相关工作
2.1 RGB 基于的手势识别方法
在手势识别领域,常见的数据集类型是图像数据,通常使用普通 RGB 相机获取。它能捕捉手势的自然颜色和纹理,为手势分析和识别提供更真实的图像特征。但 RGB 相机无法直接获取手势姿势信息,在特征提取前需要对图像进行手势分割,分割特征的质量与分割算法密切相关。
部分方法及其效果如下:
| 方法 | 数据集 | 准确率 |
| ---- | ---- | ---- |
| Köpüklü 等使用 C3D 和 ResNet - 101 作为检测器和分类器 | nvGesture 数据集 | 83% |
| Köpüklü 等使用 C3D 和 ResNet - 101 作为检测器和分类器 | EgoGesture 数据集 | 94% |
| Dhingra 等构建三维残差注意力网络 (Res3ATN) | - | - |
| Dadashzad
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



