《Real-time 2D Multi-Person Pose Estimation》论文读一读

论文介绍了一种对OpenPose的优化方法,通过使用MobileNetV1替换VGG网络,实现了在移动设备上28FPS的人体关键点检测,同时保持高精度。研究重点在于自底向上策略,与传统方法相比,其速度不受人数影响。文章详细分析了OpenPose的工作原理并展示了优化后的性能提升。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

引言:这一篇论文是关于人体姿态的,更准确地说:应该是人体关键点检测的(也有学者称关节点),原文主要论述这篇文章是基于目前最火的姿态估计网络OpenPOSE实现的基础上,加以优化,使网络的运行速度以及精度上都有所提高。

论文地址:https://arxiv.org/pdf/1811.12004.pdf

1.introduction

        多人姿态估计是一项非常重要的任务,可以应用于多个领域,例如:动作识别,动态捕获,运动等,姿态估计的任务是预测在图像中每一个人的姿态骨架,骨架包括关键点(关节点):脚裸、膝盖、臀部、肘关节等。

        在卷积神经网络CNN的助力下,人体姿态估计的精度大大提高了许多,然而关于紧凑且有效的姿态估计方法的研究甚少。作者9在手机上展示了一个简单的Mask- RCNN 关键点检测器,达到10FPS每秒,然而并没有提供实现的细节和精度的特征。

        在我们的工作中,我们优化了最流行的人体姿态估计方法OpenPose,并且展示了如何将CNN应用于姿态估计的任务中。我们运行的结果如下:

1》28 fps on mini PC Intel® NUC

2》26 fps on a usual CPU without the need of a graphic card

2.related work 相关工作

        多人姿态估计存在的问题可以使用两种方法解决。

        第一是自上而下:首先使用人体检测器,然后在被检测到的人使用姿态估计算法,因此姿态估计可以划分为两个子问题,可利用这两领域的最新成果分别解决。预测的速度绝大多数依赖于在图像中检测到的人的个数。

        第二种方法称为自底向上。首先检测到在图像中的所有关键点,然后按照人工实例对其进行分组,这种方法通常比第一种更快,因为找到依次关键点就不会再重复为每个人姿态估计。

        作者11提出了最快的自底向上的方法,在GTX1080Ti显卡上可以达到23FPS,如果图像中有三个人,如果有20人,将会达到15FPS。我们的方法是自底向上,它几乎和人数无关。。

3.分析OpenPose

        正如所有自底向上的方法,OpenPose的基础由两大部分组成:

1》神经网络预测提供两个张量:关键点热图和他们成对关系(part affifinity fifields, pafs)输出是8次下采样。

2》通过人体实例进行关键点分组。包括上采样到原图像大小,在热图的峰值提取关键点,并且按照实例进行分组。

 网络流程

        第一步:网络首先提取特征,然后初始热图和pafs估计,然后经过5个细化阶段,他能够找到18种关键点,然后分组搜索最佳关键点为其配对,例如左耳、左膝盖、左眼等,共有19对。

3.2complexity analysis(复杂性分析)

简化理解:

        最初使用VGG19网络,对结构做了修改。

        每个阶段由两个平行分支组成,一个用于热图估计,一个用于pafs。这两个分支具有相同的结构设计:如下图所示:

 4optimization优化

lightweight backbone 采用的是mobilenetV1(代替VGG网络)

5.conclusion(结果)

        精度与网络结构复杂度比提高了6.5倍以上。

6.结果图:

 自带

小琼实现 (图片来自网络,侵权请联系删除)

 #

2.结束

GAME OVER

如果理解错误,欢迎大家批评,及时纠正小琼的错误哦,真心感谢你的纠正!!!

如果小伙伴梦有疑问欢迎在评论区留言哦!!!

如果感觉不错的话!点个赞呗,不用客气!(O(∩_∩)O哈哈~)

欢迎和小伙伴梦一起学习,共同努力,加油!!!

 小琼独家所有

扫码有惊喜!!!

### 回答1: 实时多人二维姿态估计使用的是部件关联场技术。该技术利用深度学习网络对图像中的人体关键点进行检测和定位,并通过学习人体部位之间的关联性来提高姿态估计的准确性。在实时性方面,该技术利用高效的网络结构和并行计算技术,能够在处理多人图像时保持较高的处理速度和较低的延迟。 ### 回答2: 实时的多人2D姿态估计是指在照片或视频中同时检测多个人的姿态并实时反馈结果。这个任务主要是依赖计算机视觉领域的人体关键点检测技术。而Part Affinity Fields(PAF)是现在最常用的一种检测方法。 PAF可以理解为是人体姿态中的“骨架”,它在这里指的是需要将骨骼节点间的关系一同考虑进去来提高精度的设计。每个PAF都对应着一对关联的节点,例如手臂这一关节对应的PAF就是肩膀和手腕两个关键点中间的向量场。PAF能够将关键点之间的联系编码为一个向量场,并将它们的图像位置和方向作为通道特征,这样就可以通过深度卷积网络获得节点的连接信息。 对于多人2D姿态估计任务,PAF可以自动推断出人体的椭圆形状,使得不同人的节点互相不干扰,能够高效地分离不同人体之间的关键点信息,保证检测精度。 总体而言,实时的多人2D姿态估计技术是计算机视觉研究领域中一个非常重要的方向。通过Part Affinity Fields技术,可以实现对人体姿态的快速准确检测和分析,并具有广泛的应用前景,比如拍摄跳舞类视频、体育比赛等。未来,该领域还将会不断提高研究和开发技术,提高其在实际场景中的使用效果,为人们的生产和生活提供更多更好的便利。 ### 回答3: 在计算机视觉领域,人体姿态估计一直是一个十分重要的研究方向。现在,研究者们正在致力于开发实时多人二维姿态估计方法,本文将介绍一种方法——part affinity fields。 Part affinity fields是指身体部位之间存在的空间关系矩阵。多人姿态估计就是先将图像中的每一个像素与人体相关的身体部件联系起来,然后再利用network output将这些点连接起来形成人体姿态。part affinity fields的基本思想是采用CNN对每一个像素做预测,以定位人体骨架上的每一个连接点。 主要步骤: 1.生成部件置信图:对于输入的图像,通过CNN估计每个像素是否为其中每个身体部位的一部分,这个图叫做部件置信图(Part Confidence Maps),可以通过训练数据集来检测出身体部位的位置。 2.生成连接部件映射图:对于预测出来的部件置信图,我们可以通过预测到的部件之间的关系来学习生成连接映射图(Part Affinity Fields),即学习两个不同身体部件之间的关系(connectivity),这个关系是一个形状为“c×2×h×w”的4维张量。在测试阶段,对于输入图像中的每个像素,都会有其对应到一个连接部件映射图的位置。 3.生成姿态结果:最后,我们将生成的部件置信图和连接部件映射图进行联合,把已确定的部件通过连接映射图装配起来并组合成人体的姿态结果。 这种方法最大的好处就是实现了实时多人姿态估计,不需要预设一个特定数量的人数。同时,在处理不同人的关键点时,以前的方法通常是对每个人都单独进行估计,而这个方法则对所有人的关键点一起进行估计,能够更好地处理人际交互。 总之,通过深度学习和部件置信图与连接映射图等技术手段的利用,Part Affinity Fields在解决实时多人二维姿态估计时具有很大的潜力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值