最近有个小项目要搞姿态识别,简单调研了一下2D的识别:
基本上是下面几种
- (单人)single person
- 直接关键点回归
- heatmap,感觉其实就是把一个点的标签弄成一个高斯分布
- (多人)multi person
- 自顶向下:先把人圈出来,再针对单个人做检测
- 自底向上:把所有关键点弄出来,再聚合适配到个人
这个不是本文重点,笔者也还没吃透,可以看这篇综述:Deep Learning-Based Human Pose Estimation: A Survey
作者试过几个模型:openpose,alpahpose,mediapipe,使用体验如下:
- openpose流行度很高,效果也不错,就是有点慢,fps比较低
- alphapose效果和速度都很满意,比较重量级
- mediapipe效果速度都很好,使用体验超级棒,封装太好了
作者打算从头到尾完整地训练一个自己地数据集合,并且要求速度为第一位,精度达到要求即可,经过简单调研,上面几个虽然很不错,但是系统学习下来成本可能比较高,所以后面再弄,打算从2018年的这篇lightweight openpose开始学习,看一下这个introduction就知道为啥先弄这个了:

速度和精度都不错,关键是论文才5页,下面是论文和代码链接,体量都不大,正好适合练手:
- 论文地址:https://arxiv.org/pdf/1811.12004.pdf

本文介绍了作者在2D姿态识别项目中对现有模型的研究,包括singleperson和multiperson检测方法。作者尝试了openpose、alphapose和mediapipe等模型,发现它们虽好但学习成本较高。因此,作者决定从2018年的lightweight openpose论文开始,该模型在速度和精度上有良好表现。在配置环境中遇到pycocotools安装问题,最终通过下载特定版本的whl文件解决。测试运行了作者提供的预训练模型,能够成功实现摄像头实时姿态检测。
最低0.47元/天 解锁文章
6408





