Single-Stage Multi-Person Pose Machines

本文介绍了Single-Stage Multi-Person Pose Machines论文,该方法提出了一种一步到位的多人姿态检测方案,无需传统Top-Down或Bottom-Up的两步过程。通过对关键点进行分层和回归相对offset,解决了长距离偏移的难题。文中还讨论了标签格式、损失函数计算及其在实际应用中的挑战。

昨天在arxiv上发现的一篇非常有意思的论文,特来记录一下,惯例发链接

自己实现的github

为什么文章叫Single-Stage,首先,针对多人pose这方面,主流的方法分为两类:

  1. Top-Down solution。先用一个detector检测出来图像上的所有行人,然后针对每一个检测的出来的human box,做单人pose预测,总共需要2步
  2. Bottom-Up solution。先用一个cnn检测出来图像上所有人的所有关键点,再通过一个聚类算法(或者其它方法)对这些点进行区分,将同一个人的点划分到一起,最后得到所有人的关键点,总共需要2步

以上的方法都是需要经过两个步骤才可以得到最终的multi-person pose,那么有没有一种方法可以一步到位?这就是论文提出的方法,一步到位,一次就可以得到多个人的pose点,所以叫做Single-Stage,具体看下图:
在这里插入图片描述
思路和之前anchor-free的Objects as Points很像,具体如下:

  1. 定义一个中心点,这个中心点就是这个人的box的中心位置,论文里把它叫作root joint

  2. root joint回归出来模型需要检测的某一个人的所有pose点的offset(

### Zero-Shot Learning vs Single-Shot Learning vs Multi-Shot Learning #### 定义与概念 Zero-shot 学习是一种特殊形式的学习方法,在这种情况下,模型能够在不接触任何标记样本的情况下识别新的类别。该技术依赖于辅助信息来推断未知类别的特征[^1]。 Single-shot 和 multi-shot 学习则属于少样本学习(few-shot learning),其中 single-shot 表示仅提供一个样本来定义新类别;而 multi-shot 则指提供了少量多个样本用于同一目的。这些场景下,算法通过利用先前获得的知识来进行快速适应并做出预测[^3]。 #### 工作原理对比 对于 zero-shot 学习而言,其核心在于如何建立已知类别属性与其他未见过的数据之间的联系。通常会借助外部资源如词向量或其他描述性元数据作为桥梁实现跨域推理能力。 相比之下,single-shot 及 multi-shot 方法更侧重于从有限数量的具体实例中提取模式,并将其泛化到相似但未曾遇到过的案例上去。这类方法往往采用度量空间构建、原型网络或记忆增强型架构等方式促进迁移过程的有效性。 ```python # 示例代码展示三种方式的区别: def zero_shot_learn(new_class_description): # 使用预训练好的语义表示进行分类决策 pass def few_shot_learn(training_samples_per_class): if isinstance(training_samples_per_class, dict) and all(len(v)==1 for v in training_samples_per_class.values()): mode = 'single-shot' elif isinstance(training_samples_per_class, dict) and all(1<len(v)<k for v in training_samples_per_class.values()): mode = 'multi-shot' # 基于给定的支持集调整参数以适应新任务 pass ```
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值