使用MediaPipe进行运动类型检测：原理、实现与代码详解

原创已于 2025-05-15 10:01:12 修改 · 986 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#c++ #算法 #python

于 2025-05-15 10:00:33 首次发布

使用MediaPipe进行运动类型检测：原理、实现与代码详解

引言

运动类型检测是计算机视觉领域的重要应用，广泛应用于体育训练、健身指导、舞蹈教学和康复医疗等多个场景。随着计算机视觉技术的发展，轻量级、实时的运动检测解决方案变得越来越重要。MediaPipe作为谷歌开源的跨平台框架，提供了强大的人体姿态估计能力，可以有效地应用于运动类型检测。本报告将详细介绍如何使用MediaPipe进行运动类型检测，包括其工作原理、实现方法和代码示例。

MediaPipe概述

MediaPipe是由谷歌开发的开源框架，旨在为开发者提供简单而强大的工具，用于实现各种视觉和感知应用程序[27]。它包含一系列预训练的机器学习模型和用于构建自定义管道的工具，能够高效地处理从图像采集到特征提取、模型推断和结果可视化的完整流程。
MediaPipe Pose是MediaPipe提供的一个预训练模型，专门用于人体姿态估计。它能够识别人体的关键关节位置，如肩部、肘部、腕部、髋部、膝部和脚踝等[6]。MediaPipe Pose基于BlazePose研究，提供了一种全身姿态追踪的机器学习解决方案，能够从RGB视频帧中预测全身的33个3D关键点[7]。

BlazePose模型架构

BlazePose是MediaPipe Pose背后的核心模型，它是一种轻量级卷积神经网络架构，专为移动设备上的实时人体姿态估计而设计[20]。BlazePose的网络结构借鉴了hourglass这种堆叠网络，认为encoder-decoder这样的结构能很好地学习关键点检测任务[19]。
BlazePose的主要特点包括：

轻量级设计：专为移动设备实时推理优化
高效架构：采用类似hourglass的堆叠网络结构
多任务学习：同时预测热图(heatmap)和偏移(offset)
3D关键点预测：能够生成33个身体关键点的坐标
BlazePose模型架构可以分为推理管道(Inference pipeline)、人体检测器(Person detector)、拓扑结构(Topology)和神经网络架构(Neural architecture)几个部分[22]。在推理过程中，该网络为单个人生成33个身体关键点，并在每个关键点上提供置信度分数[20]。

MediaPipe Pose的工作原理

MediaPipe Pose基于BlazePose研究，是一种用于高保真身体姿势跟踪的ML解决方案。它能够从RGB视频帧中推断整个身体上的33个3D地标和背景分割掩码[5]。
MediaPipe Pose将人体各个部位分成33个点（0-32）。通常可以通过判断角度，来判断姿态是什么动作。例如，通过计算关键点之间的角度，可以确定人体是否处于某种特定姿势[1][4]。
MediaPipe提供了3种尺寸大小的模型，分别是lite、full和heavy三种尺寸大小的模型。heavy模型精度最高，但速度会相应降低。开发者可以根据自己的需求和硬件条件选择合适的模型[2]。

运动类型检测的基本原理

运动类型检测是基于人体姿态估计的高级应用。其基本原理是通过分析人体关键点的时序变化，识别出特定的运动模式。在MediaPipe Pose的基础上，可以通过以下步骤实现运动类型检测：

人体姿态估计：使用MediaPipe Pose获取视频中每帧的人体关键点坐标
特征提取：从关键点坐标中提取有意义的特征，如肢体角度、肢体长度变化等
运动模式识别：使用机器学习算法识别特征中的模式，判断属于哪种运动类型
在运动类型检测中，通常需要考虑以下因素：

时序性：运动具有时序特性，需要分析关键点的时序变化
鲁棒性：需要应对遮挡、光照变化等干扰因素
准确性：需要准确识别不同运动类型之间的差异

使用MediaPipe进行运动类型检测的实现方法

环境搭建

使用MediaPipe进行运动类型检测需要安装必要的Python库：

pip install mediapipe opencv-python

基本实现流程

使用MediaPipe进行运动类型检测的基本流程包括：

初始化MediaPipe Pose对象
处理视频流或图像
获取人体关键点
计算特征
进行运动类型分类
可视化结果

代码实现示例

以下是一个使用MediaPipe进行运动类型检测的基本代码框架：

import cv2
import mediapipe as mp
import numpy as np
# 初始化MediaPipe Pose
mp_pose = mp.solutions.pose
mp_drawing = mp.solutions.drawing_utils
# 定义运动类型检测器
class MotionDetector:
    def __init__(self):
        self.pose = mp_pose.Pose(min_detection_confidence=0.5, min_tracking_confidence=0.5)
        self.motion_type = "unknown"
    
    def process_frame(self, frame):
        # 将BGR转换为RGB
        frame_rgb = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
        
        # 获取姿态估计结果
        results = self.pose.process(frame_rgb)
        
        if results.pose_landmarks:
            # 提取关键点坐标
            landmarks = results.pose_landmarks.landmark
            
            # 计算特征（这里以肩部角度为例）
            shoulder_left = landmarks[mp_pose.PoseLandmark.LEFT_SHOULDER.value]
            shoulder_right = landmarks[mp_pose.PoseLandmark.RIGHT_SHOULDER.value]
            hip_left = landmarks[mp_pose.PoseLandmark.LEFT_HIP.value]
            hip_right = landmarks[mp_pose.PoseLandmark.RIGHT_HIP.value]
            
            # 计算角度特征
            angle_feature = self.calculate_angle(shoulder_left, shoulder_right, hip_left, hip_right)
            
            # 根据特征判断运动类型
            if angle_feature > 170:
                self.motion_type = "standing"
            elif 150 < angle_feature < 170:
                self.motion_type = "sitting"
            else:
                self.motion_type = "other"
            
            # 绘制关键点和骨骼
            mp_drawing.draw_landmarks(
                frame, results.pose_landmarks, mp_pose.POSE_CONNECTIONS,
                mp_drawing.DrawingSpec(color=(0,0,255), thickness=2, circle_radius=2),
                mp_drawing.DrawingSpec(color=(0,255,0), thickness=2))
        
        return frame, self.motion_type
    
    def calculate_angle(self, l_shoulder, r_shoulder, l_hip, r_hip):
        # 计算向量
        vector1 = np.array([l_shoulder.x - l_hip.x, l_shoulder.y - l_hip.y])
        vector2 = np.array([r_shoulder.x - r_hip.x, r_shoulder.y - r_hip.y])
        
        # 计算角度
        cos_theta = np.dot(vector1, vector2) / (np.linalg.norm(vector1) * np.linalg.norm(vector2))
        angle = np.arccos(cos_theta) * 180 / np.pi
        
        return angle
# 创建检测器实例
detector = MotionDetector()
# 打开摄像头
cap = cv2.VideoCapture(0)
while cap.isOpened():
    success, frame = cap.read()
    if not success:
        break
    
    # 处理帧
    frame, motion_type = detector.process_frame(frame)
    
    # 显示运动类型
    cv2.putText(frame, f"Motion Type: {motion_type}", (10, 30), cv2.FONT_HERSHEY_SIMPLEX, 1, (0,0,255), 2)
    
    cv2.imshow('MediaPipe Pose', frame)
    
    if cv2.waitKey(5) & 0xFF == 27:
        break
cap.release()

运动类型检测的实现细节

在上述代码示例的基础上，以下是实现运动类型检测的几个关键细节：

1. 关键点选择与特征提取

对于不同的运动类型，需要选择合适的关键点来提取特征。例如：

站立与坐姿检测：主要关注躯干角度
跳跃检测：主要关注垂直方向上的变化
跑步检测：主要关注腿部摆动模式
在实际应用中，可以根据具体需求选择相关的关键点，并计算这些关键点之间的距离、角度、速度等特征。

2. 运动类型分类方法

运动类型检测本质上是一个分类问题，可以采用以下几种方法：

规则引擎：基于预定义的特征阈值进行分类
机器学习：使用SVM、随机森林等传统机器学习算法
深度学习：使用LSTM、CNN等深度学习模型
对于简单的运动类型检测，可以先尝试规则引擎方法，如上述代码示例所示。对于复杂的运动类型检测，可能需要使用更复杂的模型。

3. 时序特征的处理

运动是时序性的，因此需要考虑时序特征：

滑动窗口：取一定数量的连续帧作为输入
时序差分：计算关键点随时间的变化率
频域特征：对时序信号进行傅里叶变换
这些时序特征能够更好地捕捉运动的动态特性，提高分类准确率。

4. 鲁棒性增强

为了提高运动类型检测的鲁棒性，可以采取以下措施：

多目标检测：同时跟踪多个关键点，使用多数投票
置信度加权：考虑关键点的置信度，对特征进行加权
异常检测：识别和处理异常情况，如遮挡
这些方法能够提高系统在复杂环境下的性能。

具体运动类型的检测实现

引体向上检测

以下是一个使用MediaPipe进行引体向上检测的代码示例：

import cv2
import mediapipe as mp
import numpy as np
mp_pose = mp.solutions.pose
mp_drawing = mp.solutions.drawing_utils
class PullupDetector:
    def __init__(self):
        self.pose = mp_pose.Pose(min_detection_confidence=0.5, min_tracking_confidence=0.5)
        self.counter = 0
        self.stage = None
    
    def calculate_angle(self, a, b, c):
        a = np.array([a.x, a.y, a.z])
        b = np.array([b.x, b.y, b.z])
        c = np.array([c.x, c.y, c.z])
        
        ba = a - b
        bc = c - b
        
        cosine = np.dot(ba, bc) / (np.linalg.norm(ba) * np.linalg.norm(bc))
        angle = np.arccos(cosine) * 180.0 / np.pi
        return angle
    
    def process_frame(self, frame):
        frame_rgb = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
        results = self.pose.process(frame_rgb)
        
        if results.pose_landmarks:
            landmarks = results.pose_landmarks.landmark
            
            # 获取关键点坐标
            shoulder = landmarks[mp_pose.PoseLandmark.LEFT_SHOULDER.value]
            elbow = landmarks[mp_pose.PoseLandmark.LEFT_ELBOW.value]
            wrist = landmarks[mp_pose.PoseLandmark.LEFT_WRIST.value]
            
            # 计算角度
            angle = self.calculate_angle(shoulder, elbow, wrist)
            
            # 判断阶段
            if angle < 90 and self.stage == 'down':
                self.counter += 1
                self.stage = 'up'
            if angle > 160 and self.stage == 'up':
                self.stage = 'down'
            
            # 绘制关键点和骨骼
            mp_drawing.draw_landmarks(
                frame, results.pose_landmarks, mp_pose.POSE_CONNECTIONS,
                mp_drawing.DrawingSpec(color=(0,0,255), thickness=2, circle_radius=2),
                mp_drawing.DrawingSpec(color=(0,255,0), thickness=2))
        
        return frame, self.counter
# 创建检测器实例
detector = PullupDetector()
# 打开摄像头
cap = cv2.VideoCapture(0)
while cap.isOpened():
    success, frame = cap.read()
    if not success:
        break
    
    # 处理帧
    frame, count = detector.process_frame(frame)
    
    # 显示计数
    cv2.putText(frame, f"Pullup Count: {count}", (10, 30), cv2.FONT_HERSHEY_SIMPLEX, 1, (0,0,255), 2)
    
    cv2.imshow('Pullup Detector', frame)
    
    if cv2.waitKey(5) & 0xFF == 27:
        break
cap.release()

跳绳状态判别与计数

以下是一个使用MediaPipe进行跳绳状态判别与计数的代码示例：

import cv2
import mediapipe as mp
import numpy as np
mp_pose = mp.solutions.pose
mp_drawing = mp.solutions.drawing_utils
class Jump RopeDetector:
    def __init__(self):
        self.pose = mp_pose.Pose(min_detection_confidence=0.5, min_tracking_confidence=0.5)
        self.counter = 0
        self.stage = None
        self.pre_wrist_y = None
    
    def process_frame(self, frame):
        frame_rgb = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
        results = self.pose.process(frame_rgb)
        
        if results.pose_landmarks:
            landmarks = results.pose_landmarks.landmark
            
            # 获取手腕坐标
            wrist = landmarks[mp_pose.PoseLandmark.LEFT_WRIST.value]
            
            # 判断阶段
            if self.pre_wrist_y is not None:
                if wrist.y < self.pre_wrist_y - 0.05 and self.stage == 'down':
                    self.counter += 1
                    self.stage = 'up'
                if wrist.y > self.pre_wrist_y + 0.05 and self.stage == 'up':
                    self.stage = 'down'
            
            self.pre_wrist_y = wrist.y
            
            # 绘制关键点和骨骼
            mp_drawing.draw_landmarks(
                frame, results.pose_landmarks, mp_pose.POSE_CONNECTIONS,
                mp_drawing.DrawingSpec(color=(0,0,255), thickness=2, circle_radius=2),
                mp_drawing.DrawingSpec(color=(0,255,0), thickness=2))
        
        return frame, self.counter
# 创建检测器实例
detector = Jump RopeDetector()
# 打开摄像头
cap = cv2.VideoCapture(0)
while cap.isOpened():
    success, frame = cap.read()
    if not success:
        break
    
    # 处理帧
    frame, count = detector.process_frame(frame)
    
    # 显示计数
    cv2.putText(frame, f"Jump Rope Count: {count}", (10, 30), cv2.FONT_HERSHEY_SIMPLEX, 1, (0,0,255), 2)
    
    cv2.imshow('Jump Rope Detector', frame)
    
    if cv2.waitKey(5) & 0xFF == 27:
        break
cap.release()

体育训练中的应用

MediaPipe的运动姿态检测在体育训练中有广泛应用。通过结合OpenCV和MediaPipe，可以开发体育运动AI训练系统V1.0，实现自定义示范动作，辅助体育训练[35]。
这类系统的主要功能包括：

实时姿态检测：捕捉运动员的姿态
动作对比：将运动员的动作与标准示范动作进行对比
错误提示：识别动作中的错误并提供反馈
计数功能：自动计数重复动作的次数
这类系统通过采集MediaPipe检测追踪和捕获数据，实现体育训练的辅助功能[35]。

基于MediaPipe的虚拟健身教练

基于MediaPipe的虚拟健身教练是运动类型检测的高级应用。通过实时视频捕获和深度学习模型，虚拟健身教练可以识别用户健身动作，提供动态的人体检测、姿态估计、动作分类及即时反馈[36]。
这类应用通常采用以下技术栈：

前端：Flutter
后端：MediaPipe进行姿态估计
模型：训练好的运动分类模型
虚拟健身教练的主要功能包括：

动作识别：识别用户当前执行的健身动作
标准姿势判断：判断用户的姿势是否标准
错误纠正：提供姿势纠正建议
进度跟踪：记录用户的训练进度
这种应用展示了MediaPipe在实际场景中的强大应用价值。

性能比较与选择

在选择人体姿态估计和运动检测方案时，可以参考以下性能比较：

方案	速度	精度	硬件要求	开发难度
MediaPipe Pose (lite)	高	中	低	中
MediaPipe Pose (full)	中	高	中	中
MediaPipe Pose (heavy)	低	最高	高	中
YOLOv7 Pose	中	高	中	高
MediaPipe Pose提供了三种不同尺寸大小的模型，分别对应不同的速度和精度 trade-off[3]。开发者可以根据具体需求选择合适的模型。

结论

MediaPipe提供了一种高效、易用的解决方案，用于实现人体姿态估计和运动类型检测。通过结合BlazePose模型和MediaPipe框架，开发者可以快速实现高质量的运动检测应用。
本报告详细介绍了如何使用MediaPipe进行运动类型检测，包括其基本原理、实现方法和代码示例。通过研究发现，MediaPipe Pose能够从RGB视频帧中推断全身33个3D关键点，这些关键点为运动类型检测提供了丰富的特征信息。
在实际应用中，可以根据具体需求选择合适的模型尺寸（lite、full或heavy），并采用适当的特征提取和分类方法实现不同类型的运动检测。通过结合时序特征和鲁棒性增强技术，可以进一步提高系统的性能和可靠性。
随着计算机视觉技术的不断发展，MediaPipe等工具将为运动检测和分析应用带来更多的可能性，为体育训练、健身指导和康复医疗等领域提供更智能、更精准的技术支持。

参考文献

[1] 1.人体姿态估计(Pose Estimation)入门——使用MediaPipe含单帧. https://blog.youkuaiyun.com/XiaoyYidiaodiao/article/details/125280207.
[2] 基于mediapipe的人体姿态估计模型——没有GPU依然速度飞起- 知乎. https://zhuanlan.zhihu.com/p/675711996.
[3] YOLOv7与MediaPipe在人体姿态估计上的对比. https://www.bilibili.com/read/cv20052294.
[5] MediaPipe基础（5）Pose(姿势) 原创 - 优快云博客. https://blog.youkuaiyun.com/weixin_43229348/article/details/120541448.
[6] 基于MediaPipe模型能力的多种人体关键点姿态估计可视化 - 优快云博客. https://blog.youkuaiyun.com/qq_53457019/article/details/142672312.
[7] MediaPipe Pose - AI备忘录. https://www.aiuai.cn/aifarm2027.html.
[19] 【论文阅读笔记】BlazePose: On-device Real-time Body Pose. https://blog.youkuaiyun.com/qq_19784349/article/details/111238350.
[20] MediaPipe之人体关键点检测＞＞＞BlazePose论文精度 - 优快云博客. https://blog.youkuaiyun.com/qq_54185421/article/details/128919105.
[22] [PDF] 智能康复训练辅助系统. https://nuedc.sjtu.edu.cn/ckfinder/userfiles/files/%E4%BD%9C%E5%93%81%E8%AE%BE%E8%AE%A1%E6%8A%A5%E5%91%8A%EF%BC%88%E4%B8%AD%E6%96%87%EF%BC%89-%E6%99%BA%E8%83%BD%E5%BA%B7%E5%A4%8D%E8%AE%AD%E7%BB%83%E8%BE%85%E5%8A%A9%E7%B3%BB%E7%BB%91.pdf.
[27] Python开源工具库使用之运动姿势追踪库Mediapipe - 稀土掘金. https://juejin.cn/post/7366441097584148520.
[35] 基于OpenCV+MediaPipe实现运动姿态AI检测在体育训练中的应用. https://cstj.cqvip.com/Qikan/Article/Detail?id=7110921597.
[36] 斯黄/基于MediaPipe的虚拟健身教练（移动端实现） - Gitee. https://gitee.com/Snake-Konginchrist/virtual-fitness-coach-flutter-app.