【论文学习】：ICCV 2017-Detect-and-Track: Efficient Pose Estimation in Videos-优快云博客

本文链接：https://blog.youkuaiyun.com/m0_37644085/article/details/82924949

本文介绍了Facebook、CMU和达特茅斯学院研究人员提出的一种视频中人体姿态估计新方法。该方法采用两阶段策略，首先通过3D Mask R-CNN对单帧或短片段进行关键点估计，再利用轻量级跟踪模块链接关键点预测。在 PoseTrack 数据集上，该方法在 MOTA 度量下取得了55.2%的验证精度和51.8%的测试精度，是ICCV2017 PoseTrack keypoint tracking challenge 的优秀解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

项目配置链接：https://blog.youkuaiyun.com/m0_37644085/article/details/84338463

ps：不仔细学习RCNN系列→FCN→Mask RCNN是不太可能读懂这篇文章的。

---------2019.1.25

论文学习：

导读】近日，针对视频中场景复杂、人物众多等困难挑战，来自Facebook、CMU和达特茅斯学院的研究人员提出了一种新颖的基于检测和跟踪的视频中人体姿态估计方法。其方法是一种轻量级的两阶段建模方式：先对单帧或者短片段进行关键点估计，后续使用轻量级的跟踪方法来生成关键点的预测并链接到整个视频上。另外，本文还对Mask R-CNN进行了3D扩展。提出的方法在最新的多人视频姿态估计数据集PoseTrack上进行了大量的对比实验，在Multi-Object Tracking Accuracy (MOTA)度量下取得了55.2%的验证精度和51.8%的测试精度，并且在ICCV2017 PoseTrack keypoint tracking challenge 中取得了极佳的效果。
论文：Detect-and-Track: Efficient Pose Estimation in Videos

▌摘要

这篇文章致力于解决复杂的，多人视频下人体关键点的估计和跟踪。基于最新的人体检测和视频理解方面的进展，文章提出了一种极度轻量化和高效的两阶段方法：先对单帧或者短片段进行关键点估计，后续使用轻量级的跟踪方法来生成关键点的预测并链接到整个视频上；对于帧层次（frame-level）的姿态估计，本文使用了Mask R-CNN和提出的3D扩展，能够利用短片段上的时序信息来生成更加鲁棒的帧预测。

本文在最新的多人视频姿态估计数据集PoseTrack上进行了大量的对比实验，来验证模型中的多种设计选择。提出的方法在Multi-Object Tracking Accuracy (MOTA)度量下取得了55.2%的验证精度和51.8%的测试精度，并且在ICCV2017 PoseTrack keypoint tracking challenge 中取得了state-of-the-art的效果。

▌详细内容

最近几年，例如物体和场景识别等视觉理解任务在深度视觉表示的帮助下已经取得了惊人的突破。由于对大量实际应用的重要性，对图像中的人体行为进行建模和理解已经成为了视觉研究领域的一个热点。特别地，单张图片中的人体检测和姿态估计是视觉识别中的一个重要的、有挑战性的任务。

对于大量的、复杂的图像理解任务的引入，虽然单张图片的理解已经取得了很大的进步，但是视频理解目前尚未取得很大突破。虽然有一些工作为整个视频标注了单种动作类型，但是这些工作并没有关注随着时间的改变，以及如何对视频中场景、物体和人体等外观和语义上的变化进行建模。

在这篇文章中，主要关注复杂内容视频中人体姿态的跟踪，包含了整个时间段每个人姿态的跟踪和评估。这个任务存在很多挑战，包括姿态变化，遮挡和多个人体的重叠。理想的跟踪器必须根据对整个时间段外观和姿态改变的推理来对所有人的姿态进行预测。因此，实现一个姿态跟踪器不仅需要追求最好的姿态估计效果，并且需要很好地将特定个体层面上的时序信息融合进来。

大部分现有的视频姿态估计方法使用了手工设计的图模型或者整数规划优化，通过计算整个时间的预测来进行基于帧的关键点预测。虽然这些方法展现出良好的效果，但是他们要求对优化约束进行手工编程并且受计算复杂度的影响，从而无法在长时间的视频片段上进行拓展。更重要的是，这种跟踪优化方法只对帧层次的预测起作用，系统无法使用时序信息来提升对关键点的预测。(除了[41]，但是只在单人视频中有效)。这就意味着，尽管帧与帧之间的信息是相关的并且十分明确的，如果一个帧画面的关键点定位的不好，比如由于部分遮挡或运动模糊，会使得预测结果无法得到提升。

为了解决这个问题，本文提出了一个简单且高效的方法，该方法使用了目前姿态估计中state-of-the-art的方法并使用一个新颖的3D Mask RCNN结构将视频相邻帧中的时序信息融合到其中。值得注意的是，这种方法保持了两阶段过程的简单性：帧层次的关键点估计通过在短片段上使用了一个滑动窗口运算来完成时空操作。这使得提出的3D模型能够在前后帧中传播有用的信息来使得每个帧的预测更加鲁棒，通过使用一个轻量级的长期跟踪模块，使得提出的方法可以在任意长视频上使用。图一解释了本文的方法。

图1，提出了一种两阶段的方法来进行视频中关键点预测和跟踪。第一阶段，本文提出了一种创新的视频姿态估计，3D Mask R-CNN，将一段视频的片段作为输入并检测出每个人的tubelet和关键点。在第二阶段，本文使用了一个轻量级的优化方法(匈牙利算法或者贪婪算法)来将整个时间段的检测结果联系起来。

本文在极具挑战性的PoseTrack dataset上训练并评估了提出的方法，这个数据集包含了人们在不同的日常场景中的视频，并且在所有帧上标注了人体关节的位置和对应的人体索引。首先，为了证实方法的有效性ÿ