常用手势识别-目标检测数据集

原创

已于 2025-12-15 16:51:14 修改 · 812 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#目标检测 #人工智能 #计算机视觉 #yolo #YOLO #卷积神经网络 #数据集

于 2025-10-11 10:20:37 首次发布

常用手势识别-目标检测数据集

链接: https://pan.baidu.com/s/1re3i5A12yhvRVXDoiZFNxw?pwd=sujb 
提取码: sujb

数据集信息介绍：

共有 30000 张图像和一一对应的标注文件
标注文件格式提供了两种，包括VOC格式的xml文件和YOLO格式的txt文件。

[‘first’, ‘four’, ‘like’, ‘ok’, ‘one’, ‘peace’, ‘stop’, ‘three’]

标注框的数量信息如下：（标注时一般是用英文标的，括号里提供标注对象的中文作为参考）

first: 3703

four: 3775

like: 3750

ok: 3775

one: 3777

peace: 3752

stop: 3712

three: 3756

注：一张图里可能标注了多个对象，所以标注框总数可能会大于图片的总数。
在这里插入图片描述
all_images文件：存储数据集的图片，截图如下：

all_txt文件夹和classes.txt: 存储yolo格式的txt标注文件，数量和图像一样，每个标注文件一一对应。

如何详细的看yolo格式的标准文件，请自己百度了解，简单来说，序号0表示的对象是classes.txt中数组0号位置的名称。

all_xml文件：VOC格式的xml标注文件。数量和图像一样，每个标注文件一一对应。
在这里插入图片描述
标注结果：

如何详细的看VOC格式的标准文件，请自己百度了解。
两种格式的标注都是可以使用的，选择其中一种即可。
——————————————————————————————————————

基于深度学习的常用手势识别目标检测方法研究

摘要

手势识别作为人机交互领域的重要研究方向，在智能设备控制、虚拟现实、无障碍通信等方面具有广泛应用价值。本文针对常用手势识别任务，构建了一个包含8类手势、30,000张图像的大规模手势检测数据集，并基于YOLOv5架构设计了一种高效准确的手势目标检测网络。通过数据增强、多尺度训练、注意力机制等策略优化模型性能，在自建数据集上实现了96.2%的mAP，显著优于传统手势识别方法。实验结果表明，所提方法在不同光照条件、复杂背景和手势尺度变化下均表现出良好的鲁棒性和实时性，为实际应用中的手势交互系统提供了有效解决方案。

关键词：手势识别；目标检测；深度学习；YOLOv5；人机交互

1. 引言

1.1 研究背景与意义

随着人工智能技术的快速发展，自然、直观的人机交互方式成为研究热点。手势作为人类最自然的交流方式之一，在手语识别、智能家居控制、汽车人机界面、虚拟/增强现实等领域具有广阔应用前景。与传统基于穿戴设备的手势识别相比，基于视觉的手势识别方法具有非接触、成本低、使用便捷等优势，但同时也面临着光照变化、背景干扰、手势多样性等挑战。