Deep High-Resolution Representation Learning for Human Pose Estimation (CVPR2019)

最新推荐文章于 2024-06-03 10:22:32 发布

原创

最新推荐文章于 2024-06-03 10:22:32 发布 · 2.5k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

微软和中科大研究者提出的《Deep High-Resolution Representation Learning for Human Pose Estimation》论文揭示了一种新型算法，旨在消除姿态估计算法中分辨率降低再恢复的过程。该算法在网络各阶段保持高分辨率特征图，并通过多分辨率特征的反复融合提高表现。在COCO和MPII数据集上，与现有最佳算法相比，取得了显著的性能提升。

来自微软和中国科技大学研究学者的论文《Deep High-Resolution Representation Learning for Human Pose Estimation》和相应代码已经公布。
该文为第一作者Ke Sun在微软亚洲研究院实习期间发明的算法。
作者观察到，现有姿态估计算法中往往网络会有先降低分辨率再恢复高分辨率的过程，比如下面的几种典型网络。
在这里插入图片描述
(a) Hourglass (b) Cascaded pyramid networks（c）Simple Baseline (d) Deepercut

作者希望不要有这个分辨率恢复的过程，在网络各个阶段都存在高分辨率特征图。
在这里插入图片描述
在上图中网络向右侧方向，深度不断加深，网络向下方向，特征图被下采样分辨率越小，相同深度高分辨率和低分辨率特征图在中间有互相融合的过程。

作者描述这种结构为不同分辨率子网络并行前进。

这么做有什么好处？

作者认为：

1）一直维护了高分辨率特征图，不需要恢复分辨率。

2）多次重复融合特征的多分辨率表示。

与目前的state-of-the-art比较，取得了各个指标的最高值。相同分辨率的输入图像，与之前的最好算法相比增长了3个百分点！

在COCO test-dev 数据集上和 MPII test 数据集上，同样取得了很好的结果！

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。