【姿态估计论文阅读】Multi-Scale Structure-Aware Network for Human Pose Estimation

最新推荐文章于 2024-02-13 00:07:19 发布

Jie Ou

最新推荐文章于 2024-02-13 00:07:19 发布

阅读量1.5k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：深度学习模式识别计算机视觉文章标签：姿态估计

本文链接：https://blog.youkuaiyun.com/github_36923418/article/details/86582859

深度学习同时被 3 个专栏收录

48 篇文章

订阅专栏

计算机视觉

26 篇文章

订阅专栏

模式识别

18 篇文章

订阅专栏

介绍ECCV2018论文，重点在于改进深度神经网络在姿态估计上的表现，尤其在遮挡和尺度变化场景下。文章提出多尺度监督网络(MSS-Net)和多尺度回归网络(MSR-Net)，并引入结构感知损失和关键点遮挡训练，以增强模型的泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言：这是ECCV2018的文章，也是MPII目前的top 结果。这篇文章，用了很多“中继监督",本文的主要思想是结合“多尺度信息”，把这个体现到loss中，并且对多尺度信息进行结合，利用这一点来提升feature 效果。同时也引入了人体的结构信息，不像以前都是单个keypoint的heatmap 单独预测，本文还预测一种关联heatmap。还提出了一种keypoint的mask training来应对遮挡！

主要工作意义：

这篇文章的主要工作内容，在我看来是去探讨如何提升“深度神经卷积网络” 对于困难情况下的姿态估计！比如遮挡！以及尺度变换带来的影响！因为尺度变换会导致部分关键在 ”低分辨率的feature map“ 上消失？

本文认为，目前的state-of-the-art 的DNN-based 方法存在以下一些问题：

1、尺度不稳定：不是很明白这里为什么要说SSD，SSD框了之后难道不是在原图上截取嘛? 作者也说了，在deconv的金字塔种，网络会去对于某一个特定尺寸过拟合？也没看懂是为啥？

2、前人的工作没用上“pose的结构信息”（这个的话只能是指利用CNN的这些前人工作）：解决这个问题，可以有效的让模型在真实多人情况下，遮挡情况下等多种复杂情况下有着更好的泛化能力。occlusions and matching ambiguities are the bottlenecks

整体的结构：

这张图是整个网络的整体结构，看起来也不算复杂，只是东西有点多，给了很多定义！整个网络依然是基于Hourglass 改造而成的。

MSS-Net(multi-scale supervision network):其实长相上和Hourglass几乎一模一样，但是加入了Multi-Scale Supervision，也就是在Hourglass本身的deconv过程中浅层deconv也进行监督。从浅层的deconv features 到 heatmap 中间是否加入了headconv层，没有特别说明！但是从这个结构看，应该是非常消耗显存的！！！主要是起到一个优化scale带来的不利因素！多尺度的特征学习可以更好的捕捉身体关键点的局部上下文特征！当然deconv-pyramid也是一个“coarse-to-fine”的过程，加上了loss监督，其实和“attention mechanism”这种机制有相似之处，让网络在训练过程中，利用loss来保持某些local的关注去着重优化那部分。

MSR-Net（multi-scale regression network）：这里就是把最后一个MSS-Net的deconv pyramid的结果以及输出结合concat之后再去regression到最终结果。MSR-Net利用的是MSS-Net的输出，结合了不同scale的信息，更好的去还原，以及定位更加准确！