机器视觉|手势识别：基于YOLOv5的手部检测与MediaPipe的关键点估计

最新推荐文章于 2025-04-17 10:22:47 发布

原创最新推荐文章于 2025-04-17 10:22:47 发布

· 902 阅读

10 ·

版权

文章标签：

#YOLO

机器视觉专栏收录该内容

26 篇文章

订阅专栏

手势识别：基于YOLOv5的手部检测与MediaPipe的关键点估计

在实时计算机视觉应用中，手部检测与关键点估计是实现手势识别的重要基础。本文将介绍一种基于深度学习的手势识别技术方案，通过结合YOLOv5物体检测网络和MediaPipe关键点检测框架，实现实时的手部定位与关键点提取。

技术背景

gesture recognition 作为计算机视觉领域的重要研究方向，在 HCI（人机交互）、遥控行为分析、虚拟现实等领域具有广泛的应用前景。本文将展示一种基于深度学习的端到端解决方案，实现对真实场景中手部区域的检测与关键点估计。

方法概述

本方案主要包含以下几个模块：

物体检测：使用YOLOv5网络进行初步的手部区域定位
感兴趣区域提取：从原始图像中提取出手部候选区域
关键点检测：利用MediaPipe框架实现手部关键点的高精度定位

具体流程如下：

使用YOLOv5网络对手部位置进行粗定位，输出边界框坐标；
根据边界框提取相应的子区域，并将其输入到MediaPipe处理管道中；
MediaPipe模型对子区域内进行多阶段特征提取与 landmark预测；
最终得到手部关键点在原图中的精确位置。

代码实现

1. 环境搭建

# 导入依赖库
import cv2
import torch
import numpy as np
from ultralytics import YOLO
import mediapipe as mp

2. 加载模型与配置参数

# 初始化YOLOv5模型，使用预训练权重
yolov5 = YOLO('yolov5m.pt')

# 配置MediaPipe手部检测模块
mp_drawing = mp.solutions.drawing_utils
mp_hands = mp.solutions.hands

# 定义颜色参数
BLUE = (255, 0, 0)
GREEN = (0, 255, 0)
RED = (0, 0, 255)

###3. 执行手部检测与关键点估计

cap = cv2.VideoCapture(0)  # 初始化摄像头捕获对象

with mp_hands.Hands(
    model_path="models/hands_landmark.onnx",
    min_detection_confidence=0.7,
    min_tracking_confidence=0.7) as hands:

    while cap.isOpened():
        success, frame = cap.read()
        if not success:
            break

        # 使用YOLOv5进行物体检测
        results = yolov5(frame)
      
        # 解析检测结果
        detections = results.xyxy[0]
        for det in detections:
            x1, y1, x2, y2, conf, label = map(int, det[:6])
          
            if label == 0:  # 假设类别索引为0表示手部
          
                cv2.rectangle(frame, (x1,y1), (x2,y2), BLUE, thickness=2)
              
                hand_frame = frame[y1:y2, x1:x2].copy()
                hand_rgb = cv2.cvtColor(hand_frame, cv2.COLOR_BGR2RGB)
              
                # 使用MediaPipe进行关键点检测
                hands_results = hands.process(hand_rgb)
              
                if hands_results.multi_hand_landmarks:
                    for landmarks in hands_results.multi_hand_landmarks:
                        mp_drawing.draw_landmarks(
                            frame,
                            landmarks,
                            mp_hands.HAND_CONNECTIONS,
                            landmark_drawing_spec=mp_drawing.DrawingSpec(color=RED, thickness=2),
                            connection_drawing_spec=mp_drawing.DrawingSpec(color=GREEN, thickness=1))
                      
        cv2.imshow('Hand Detection & Landmark', frame)
      
        if cv2.waitKey(5) == ord('q'):
            break