【三十六周】文献阅读：H+O：三维手部物体姿态和交互的统一自我中心识别

摘要

本文提出了一种名为 H+O 的统一框架，用于从单目 RGB 视频中联合推理手与物体的 3D 姿态、物体类别及交互动作。该框架通过全卷积网络将每帧图像划分为 13×13×5 的 3D 网格，每个网格单元直接预测手和物体的 3D 控制点（如手部关节或物体包围盒角点）、置信度、物体类别及动作概率，并通过相机内参矩阵将图像坐标转换为 3D 相机坐标系。高置信度的单帧预测输入至 LSTM 和 MLP 模块，显式建模手与物体的时空交互关系，最终输出整个序列的交互类别。实验表明，该方法在 FPHA-HO 数据集上动作识别准确率达 96.99%，且单帧推理速度达 25 FPS，兼具高效性与鲁棒性。

Abstract

This paper introduces a framework called H+O for jointly understanding 3D hand and object poses, object categories, and interactions from single-view RGB videos. The framework divides each frame into a 13×13×5 3D grid using a convolutional network. Each grid cell predicts 3D control points (like hand joints or object corners), confidence scores, object categories, and action probabilities, and then converts these predictions into 3D camera coordinates using the camera’s internal parameters. High-confidence predictions are passed to an LSTM and MLP module to model the temporal interactions between hands and objects, finally outputting the interaction type for the entire sequence. Experiments show that the method achieves 96.99% accuracy on the FPHA-HO dataset and runs at 25 FPS, making it both efficient and robust.

H+O: 三维手部物体姿态和交互的统一自我中心识别

Title: H+O: Unified Egocentric Recognition of 3D Hand-Object Poses and Interactions
Author: Bugra Tekin, Federica Bogo, Marc Pollefeys
Source: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 4511-4520
Link: https://openaccess.thecvf.com/content_CVPR_2019/html/Tekin_HO_Unified_Egocentric_Recognition_of_3D_Hand-Object_Poses_and_Interactions_CVPR_2019_paper.html

研究背景

在计算机视觉领域，理解人类与物体的交互行为一直是一个核心挑战。尤其是在自我中心视角（Egocentric View）下，手与物体的动态交互不仅涉及复杂的姿态变化，还包含丰富的语义信息，如动作类型（如“倒水”）和物体类别（如“水瓶”）。这类研究对增强现实（AR）、虚拟现实（VR）、机器人操作和远程协作等应用具有重要意义。然而，现有方法大多局限于单独处理手或物体的姿态估计，或在多摄像头或深度传感器的辅助下完成，这在实际场景中面临成本高、功耗大和适用性受限的问题。此外，现有方法往往忽略动作的语义理解，仅关注几何层面的姿态恢复，导致无法为高层任务（如意图识别）提供支持。

早期工作如Sridhar等人（2016）通过联合建模手与物体的运动提升了姿态估计的鲁棒性，但其依赖深度传感器。Mueller等人（2017）虽尝试从RGB视频中跟踪手部姿态，但未涉及物体的三维重建。另一方面，动作识别领域的研究（如Garcia-Hernando等，2018）虽结合了深度数据，但需要依赖真实姿态标注。这些局限性表明，现有方法在单目RGB视频下难以实现手与物体姿态的联合估计及语义动作的端到端推理。

在这里插入图片描述
因此，本文作者提出了一个统一的框架，通过在神经网络的前馈过程中同时解决四个任务来识别3D中的手和物体的交互：3D手姿势估计、物体姿势估计、对象识别和活动分类。这个方法可以在单目彩色图像上运行，并依赖于所有任务之间共享的联合特征。该框架在同一架构内联合解决了3D关节和刚性姿态估计问题。并且此方案依赖于双手和物体的通用输出表示，该表示通过3D控制点来参数化它们的姿势。与常见的单目神经网络框架相比，本文作者的网络直接预测3D而不是2D的控制点，不需要解决2D到3D的对应问题，并大大提高了准确性。并且在本文中还提出了一种时域模型，用于在时域中合并和传播信息，直接在3D中显式地模拟交互并推断手和物体之间的关系。

方法论

本文提出了一种名为H+O的统一框架，通过单次前馈神经网络实现以下任务：

单帧推理：从单张RGB图像中联合预测3D手部姿态（21个关节）、6D物体姿态（3D包围盒）、物体类别和动作类别（如“倒水”）。
时序建模：通过循环神经网络（LSTM）融合多帧信息，显式建模手与物体的时空交互关系。

工作流程

在这里插入图片描述

模型首先使用全卷积网络处理序列的每一帧 $I^t$ （图a），并将输入图像划分为一个规则的网格 $G^t$ （图b中为5x5），其中网络不仅把图像分成2D的网格，还沿着深度方向（即物体离摄像头的远近）分成5层。这样，整个场景被划分成一个3D的网格，每个小格子会预测手和物体的3D控制点（比如手部的关节位置或物体的角点位置），以及它们的置信度（即预测的可靠性）。我们将手和物体的网络目标值保存在张量 $G^t$ 中（图c-d）。也就是说，特定单元格位置 $i \in H \times W \times D$ 处的手或物体的目标值以多维向量 $v_i$ 的形式放置在 $G^t$ 的第i个单元格中。为了能够联合估计手和可能相互遮挡的物体的姿态，我们允许每个单元格存储两组单独的值，一组用于手，用 $v^h_i$ 表示，另一组用于物体，用 $v^o_i$ 表示（图e）。

也就是说每个小格子会输出以下信息：

手部信息：手部的3D关节位置、动作类别（比如“抓取”或“倒水”）以及置信度。
物体信息：物体的3D包围盒角点位置、物体类别（比如“水瓶”或“杯子”）以及置信度。

这些信息被存储在一个多维数组中，方便后续处理。

单帧处理完成后，网络会把多帧的预测结果（比如手和物体的位置、姿态、类别等）输入到一个RNN中。这个RNN的任务是分析多帧之间的时间关系，捕捉手和物体的运动轨迹，并推断它们之间的交互（比如手是如何移动物体、物体是如何被操作的）。通过时序建模，网络可以更好地理解复杂的动作（比如“倒水”或“拧瓶盖”），而不仅仅是单帧的静态信息。经过单帧处理和时序建模后，网络会输出每一帧的手和物体的3D姿态、物体类别、动作类别，以及整个视频序列的交互类别（比如“倒水”）。

3D控制点的相机坐标系转换

每个单元的大小为 $C_u×C_v×C_z$ 。在每个单元格内，预测与控制点对应的位置相对于单元格左上角更靠近相机一侧的偏移量 $\Delta u$ 、 $\Delta v$ 、 $\Delta$ 。对于手根关节和对象质心，我们将偏移量限制在0到1之间，其中1的大小对应于网格尺寸内每个单元格的边长。而对于其他控制点，我们不限制网络的输出，因为这些点应该被允许落在单元之外。然后，控制点的预测位置 $（\hat{w}_u，\hat{w}_v，\hat{w}_z）$ 计算如下：

$\hat{w}_u = g(\Delta u) + u$
$\hat{w}_v = g(\Delta v) + v$
$\hat{w}_z = g(\Delta z) + z$

其中：

$\hat{w}_u，\hat{w}_v，\hat{w}_z$ ：预测的3D控制点在图像空间中的坐标。
$\Delta u$ 、 $\Delta v$ 、 $\Delta$ ：网络预测的偏移量，表示控制点相对于当前网格单元左上角的偏移。
$u, v, z$ ：当前网格单元的左上角坐标。
$g (\cdot)$ ：非线性函数，用于限制偏移量的范围

接下来再通过下面整个公式将预测的图像空间坐标转换为相机坐标系下的3D坐标：

$\hat{\mathbf{y}} = \hat{w}_z \cdot C_z \cdot K^{-1} [\hat{w}_u \cdot C_u, \hat{w}_v \cdot C_v, 1]^T$

其中：

$\hat{\mathbf{y}}$ ：控制点在相机坐标系下的3D坐标。
$\hat{w}_u, \hat{w}_v, \hat{w}_z$ ：预测的控制点在图像空间中的坐标。
$C_u, C_v, C_z$