MediaPipe Hands: On-device Real-time Hand Tracking 论文阅读笔记

本文介绍了一种基于Google Research的MediaPipe实现的实时设备手部追踪技术,包括手掌检测器和手部坐标预测模型,适用于AR/VR应用。该方案无需额外硬件,能在移动GPU上实现高速推理与高精度预测,且开源提供跨平台支持。

论文地址: https://arxiv.org/abs/2006.10214v1
Demo地址:https://hand.mediapipe.dev/
研究机构:Google Research
会议:CVPR2020

开始介绍之前,先贴一个模型的流程图,让大家对系统架构有个整体的概念
在这里插入图片描述

0. 摘要 (Abstract)

We present a real-time on-device hand tracking solution that predicts a hand skeleton of a human from a single RGB camera for AR/VR applications. Our pipeline consists of two models: 1) a palm detector, that is providing a bounding box of a hand to, 2) a hand landmark model, that is predicting the hand skeleton. It is implemented via MediaPipe[12], a framework for building cross-platform ML solutions. The proposed model and pipeline architecture demonstrate real-time inference speed on mobile GPUs with high prediction quality. MediaPipe Hands is open sourced at https://mediapipe.dev

我们提出了一种实时设备上的手部跟踪解决方案,该方案可以从单张的RGB图像中预测人体的手部骨架,并且可以用于AR/VR应用。我们方案的数据处理流水线由两个模型组成:

  • (1)手掌检测器:提供手的边界框
  • (2)手部坐标估计模型:预测手的骨架

本方案基于MediaPipe(是一个用于构建跨平台机器学习解决方案的框架)实现。
它在移动GPU上具有较高的实时推理速度和预测质量,具体开源代码请参见 MediaPipe Hands

1. 简介 (Introduction)

Hand tracking is a vital component to provide a natural way for interaction and communication in AR/VR, and has been an active research topic in the industry. Vision-based hand pose estimation has been studied for many years. A large portion of previous work requires specialized hardware, e.g. depth sensors . Other solutions are not lightweight enough to run real-time on commodity mobile devices and thus are limited to platforms equipped with powerful processors. In this paper, we propose a novel solution that does not require any additional hardware and performs in real-time on mobile devices. Our main contributions are:
• An efficient two-stage hand tracking pipeline that can track multiple hands in real-time on mobile devices.
• A hand pose estimation model that is capable of predicting 2.5D hand pose with only RGB input.
• And open source hand tracking pipeline as a ready-togo solution on a variety of platforms, including Android, iOS, Web (Tensorflow.js) and desktop PCs.

手部跟踪是AR/VR重要的组成部分,为AR/VR的交互和沟通提供最自然的方式,而且这个方向一直是业界的一个活跃研究课题。
基于视觉的手部姿势估计已经研究了很多年,但是有很多局限性,具体如下:

  • (1)大部分工作需要专用硬件,例如深度传感器
  • (2)不够轻量化,不能实时的在普通的商用设备上运行,仅能运行在配备了强大处理器的平台上

在本文中我们解决了上述两个局限性,提出了一个不需要额外设备且能在移动设备上实时运行的解决方案,我们的主要贡献如下:

  • (1)一个高效的两阶段手部跟踪处理流程,可以实时的在移动设备上跟踪多个手
  • (2)一个手部姿态估计模型,可以从RGB图像输入中预测2.5D的手部姿态
  • (3)一个跨平台开箱即用的开源手部跟踪处理流程,支持的平台包括安卓、苹果、网页(Tensorflow.js)和桌面PC等

2. 架构 (Architecture)

Our hand tracking solution utilizes an ML pipeline consisting of two models working together:
• A palm detector that operates on a full input image and locates palms via an oriented hand bounding box.
• A hand landmark model that operates on the cropped hand bounding box provided by the palm detector and returns high-fidelity 2.5D landmarks.
Providing the accurately cropped palm image to the hand landmark model drastically reduces the need for data augmentation (e.g. rotations, translation and scale) and allows the network to dedicate most of its capacity towards landmark localization accuracy. In a real-time tracking scenario, we derive a bounding box from the landmark prediction of the previous frame as input for the current frame, thus avoiding applying the detector on every frame. Instead, the detector is only applied on the first frame or when the hand prediction indicates that the hand is lost.

我们的解决方案使用了机器学习的处理

### 回答1: MediaPipe Hands是一种基于设备的实时手部追踪技术。它是由Google开发的计算机视觉库MediaPipe的一部分,旨在通过摄像头捕捉的视频流对手部进行准确的实时追踪Mediapipe Hands利用了深度学习模型和机器学习算法,能够识别视频中出现的双手,并对它们的位置和手势进行跟踪。这项技术可以应用在许多领域,包括虚拟现实、增强现实、手势识别和手势控制等。例如,在游戏中,可以使用Mediapipe Hands实时追踪玩家的手势,将其转化为虚拟角色在游戏中进行相应的动作。 Mediapipe Hands的一个显著特点是其在设备上的实时性能。相比于传统的手部追踪方法,Mediapipe Hands能够在保持高准确性的同时,实现实时的处理和反馈。这得益于其优化的模型架构和高效的计算算法。作为一种基于设备的解决方案,Mediapipe Hands无需依赖云端服务或高性能硬件,可以在较低功耗和资源受限的设备上运行。 此外,Mediapipe Hands还支持多个手势的识别和跟踪。它可以检测手的位置、边界框、手指的位置和手势类别,例如拇指的弯曲、手掌的张开和手势的连续跟踪。这种多样性使Mediapipe Hands成为一个强大而灵活的工具,适用于不同的视觉和交互应用。 总之,Mediapipe Hands是一种基于设备的实时手部追踪技术,具有高准确性、低延迟和多功能的特点。它为虚拟现实、增强现实、手势识别和控制等应用领域提供了一种简单而可靠的解决方案。 ### 回答2: MediaPipe Hands是一个由Google开发的机器学习技术,用于在设备上实现实时手部追踪。它基于深度学习模型,可以从设备的摄像头中识别和跟踪手部的动作和位置。 Mediapipe Hands使用的模型经过训练,可以识别手部的21个关键点,包括手指的关节和指尖。它可以在设备上实时分析摄像头捕捉到的图像,并进行准确的手部追踪。这种技术可以用于手势识别、手势控制和虚拟现实等应用领域。 相比于传统的基于云端的手部追踪技术,Mediapipe Hands的优势在于其实时性和隐私性。由于模型是在设备本地运行,不需要依赖于云端的计算资源,因此可以实现即时的反馈和交互。同时,所有的图像和手部数据都在设备上进行处理,保护了用户的隐私。 除了实时追踪手部的动作和位置外,Mediapipe Hands还可以提供手势识别的功能。通过识别手部的动作和位置,它可以判断用户是点击屏幕、捏取物体还是做出其他手势。这种手势识别能够为用户提供更自然、直观的交互体验,并且可以被广泛应用于手机、平板电脑、AR/VR设备等不同类型的设备上。 总之,Mediapipe Hands是一项强大的机器学习技术,能够在设备上实现实时的手部追踪和手势识别。它为用户提供了更直观、自然的交互体验,并且保护了用户的隐私。这项技术具有广泛的应用潜力,可以用于各种不同的设备和场景。 ### 回答3: Mediapipe Hands是一项在设备上实时手部追踪技术,由谷歌开发。它利用神经网络模型和计算机视觉技术,能够精确地检测和跟踪人手的动作和姿势。 这项技术主要适用于在移动设备和嵌入式系统上进行手部追踪。相比于传统的云端追踪方案,Mediapipe Hands使用了高效的计算机视觉算法,能够在设备本地实时进行处理,无需依赖云端网络服务,有效提高了实时性和隐私性。 利用Mediapipe Hands技术,用户可以通过摄像头捕捉手部的位置和动作,实现手势识别、手势控制等功能。这项技术可以广泛应用于移动游戏、虚拟现实、增强现实、手势交互和人机界面等领域。 Mediapipe Hands的优势在于其快速准确的手部追踪能力。它能够将手部的关键点(如手指、掌心等)精确地识别和跟踪,实现高精度的手部姿势估计。而且,由于是在设备上进行实时处理,其响应速度非常快,可以满足实时交互的需求。 总体而言,Mediapipe Hands是一项在设备上实时追踪手部动作和姿势的技术。它的应用范围广泛,可以用于移动设备和嵌入式系统,提供高精度的手部追踪功能,为用户带来更加现实、交互友好的体验。
评论 4
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

炼丹狮

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值