【极简笔记】OpenPose

Hibercraft

于 2018-02-26 15:45:54 发布

阅读量1.9w

点赞数 3

CC 4.0 BY-SA版权

分类专栏：极简笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/hibercraft/article/details/79377997

本文介绍了OpenPose，一种使用Part Affinity Fields（PAFs）的实时多人2D姿态估计方法。通过自下而上的算法，避免了自上而下方法中随着人物数量增加运算时间显著增加的问题。OpenPose采用预训练的VGG网络，两个分支分别预测PAFs和关键点响应。通过多阶段训练，关键点和PAFs逐渐精确。损失函数为L2范数，关键点响应使用高斯分布取最大值生成。这种方法在速度和效果上表现出色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【极简笔记】Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

论文地址：https://arxiv.org/abs/1611.08050

文章的核心是提出一种利用Part Affinity Fields（PAFs）的自下而上的人体姿态估计算法。研究自下而上算法（得到关键点位置再获得骨架）而不是自上而下算法（先检测人，再回归关键点），是因为后者运算时间会随着图像中人的个数而显著增加，而自下而上所需计算时间基本不变。
PAFs
PAFs是用来描述像素点在骨架中的走向，用L(p)表示；关键点的响应用S(p)表示。先看主体网络结构，网络采用VGG pre-train network作为骨架，有两个分支分别回归L(p)和S(p)。每一个stage算一次loss，之后把L和S以及原始输入concatenate，继续下一个stage的训练。随着迭代次数的增加，S能够一定程度上区分结构的左右。loss用的 $L_2$ 范数，S和L的ground-truth需要从标注的关键点生成，如果某个关键点在标注中有缺失则不计算该点。
网络架构
对于S，每一类关键点有一个channel，生成ground-truth的时候是按照多个高斯分布取max的方法来保留各个点的响应峰值。对于L 则复杂一点，先看准确定义，对于第k个person的第c个肢干上的PAFs：

L * c, k (p) = {v 0 if p on limb c,k otherwise

$L^*_{c,k}(p)=\begin{cases}v & \text{if p on limb c,k}\\0 & \text{otherwise}\end{cases}$

v = (x j 2, k - x j 1, k

最低0.47元/天解锁文章

博客等级

码龄8年

38
原创

40
点赞

160
收藏

77
粉丝

关注

私信

热门文章

分类专栏

极简笔记 37篇

上一篇：: 【极简笔记】Tunneling Neural Perception and Logic Reasoning through Abductive Learning

下一篇：: 【极简笔记】CycleGAN

最新评论

极简笔记 The Lovasz-Softmax loss: A tractable surrogate for the optimization of the intersection-over-un
怀山襄陵_: 不懂这个loss到底是啥意思，不过代码写得还挺清楚，能直接用
极简笔记 Meta-Learning for semi-supervised few-shot classification
weixin_42720165: 你好，我想问一下，对于soft k-means + cluster的方法，对于所有的未标记样本，是直接把它归到N+1类中吗？
【极简笔记】Tunneling Neural Perception and Logic Reasoning through Abductive Learning
麦香猪扒饭: 您好，我想请教一个事情。当传入的数据是一致的时候，他会推导出算术规则如何加入KB中参与下一次的consistency判断吗？比如我识别出1+1=1，一致，那么abductive会推导出op(1, 1, 1)，这个op(1,1,1)会加入KB中并参与下一次consistency的判断吗？我觉得他是有加进去的，因为他的prolog里面是不包含operation rules的。但是如果是加进去了，如果是错误的怎么办，比如1111111可以识别成11+11=11，也可以识别成111+1=11，那么问题来了，当我识别成11+11=11是错误的，但是又满足一致性，于是我有operation rules op(11,11,11)，那如果是这样他又要怎么调整？我觉得他这个有点不太对劲。求解答，谢谢楼主了
极简笔记 Meta-Learning for semi-supervised few-shot classification
jinghanSun: 感谢分享！作者在实验部分给出了5-shot和20-shot的结果，作者说如果是5-way 5-shot的话只需要25个label，这是为什么啊？如果一个类别里有5张图片，那么就需要这五张图片的label啊，如果有很多个task，那么就需要n_task*25个label啊
极简笔记 Pyramid Attention Network for Semantic Segmentation
qq_40548768: 楼主，请问这种前后不一致的现象（论文和开源的代码不一致），我该相信那个，两种实验的结果都不太好

大家在看

百度开源文心 4.5 系列开源大模型 GitCode 本地化部署，硅基流动：文心 vs. DeepSeek vs. Qwen 3.0 深度测评 2570

最新文章

目录

展开全部

收起

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。