human pose regression by combining indirect part detection and contextual information - arxiv - 1710

最新推荐文章于 2022-09-21 10:26:02 发布

_menglan_Zi

最新推荐文章于 2022-09-21 10:26:02 发布

阅读量2.5k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： cvpr 文章标签： regression pose estimation CNN

本文链接：https://blog.youkuaiyun.com/zimenglan_sysu/article/details/78193436

该论文提出了一种新的方法，通过结合间接部分检测和上下文信息，使用回归而非传统的热力图检测来进行人体姿态估计。尽管直接回归通常效果不佳，但该方法实现了与基于热力图方法相当的性能，且避免了热力图标注和分辨率问题。模型基于Inception-V4、Skip-Connection和hourglass结构，使用soft-argmax聚合生成坐标，并应用L1和L2损失进行端到端训练。此外，论文还探讨了上下文在回归中的作用，以及如何通过全局最大池化和二元交叉熵损失进行概率估计。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

好久没写了，

心血来潮

好吧，怎么简单怎么来：

human pose regression by combining indirect part detection and contextual information - arxiv - 1710.02322

论文链接

该论文的亮点在于重新用回了regression，而不是直接基于heat map的part detection方法。为什么regression是亮点？14年NIPS的DeepPose就是用regresssion来做pose的，打开了CNN做pose的大门，但是众所周知，直接regression的效果一般，被认为是sub-optimally的。但是，但是，但是，这篇论文却用了regression来做pose，效果非常接近基于heat map的part detection的效果，太叼了。

这样做，并不需要人为产生heat map的ground-truths，也不需要担心网络的stride过大导致heat map的resolution过小的问题。

虽然论文中给出了代码的repo，但是作者还没release，坐等吧。

看图说话，下面是模型框架，看上去是不是很简单，没错，网络模型是比较简单的，利用了Inception-V4，Skip-Connection和hourglass结构来搭建，然后堆叠Block-A和Block-B。并进行了intermediate supervision。