Associative Embedding: End-to-End Learning for Joint Detection and Grouping

https://arxiv.org/pdf/1611.05424

## 介绍

       许多计算机视觉任务可被视为关键点检测和分组:检测较小的关键部分和将它们分组成更大的结构。 例如,多人物姿势估计可以被视为检测身体关节并将它们分组为个体;实例分割可以被视为检测相关像素和将它们分组为对象实例; 多目标跟踪可以被视为检测对象实例和并根据前几帧的对象环境进行分组。在所有这些情况下,输出都是一些关键部分并将他们分到一些更大的组类中。

       这些任务通常采用两阶段方法,首先执行检测然后分组。但是这种方法可能不是最理想的,因为检测和分组之间有关联:例如,在多人姿势估计中,如果附近没有肘关节检测,手腕检测可能是假阳性。

       在本文中,我们看看是否有可能使用一阶段模型执行检测和分组。 我们提出关联嵌入,一种表示联合检测分组的新方法。 基本思路是为每次检测引入一个实数,用作识别该组的“标签”。 换句话说,标签和同一组中的其他部分关联到一起。

       考虑2D图像中的检测和输出1D实数TAG的情况。 网络输出每像素检测分数的热力图和每像素标识标签的热力图。 然后这两个热图解码得到检测和分组。

       为了训练网络预测标签,我们使用的损失函数要能使同组标签具有相似的值。 重要的是要请注意,我们没有网络的标准TAG标签预测,因为重要的不是特定的标签值,而是他们之间的差异。 只要能体现相似性和差异性,网络可以根据真实分组信息自由决定标签值。
       我们将我们的方法应用于多人姿态检测,在图像中理解人类的重要任务。 具体地,给定输入图像,多人姿势估计寻求检测每个人并定位他们的身体关节。与单人检测不同,没有假定人的位置或大小。 多人姿态检测必须扫描整个图像,检测所有人及其相关性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值