Identity-Guided Human Semantic Parsing for Person Re-Identification
摘要
现有的基于对齐的方法必须采用预先训练的人体解析模型来实现像素级对齐,并且无法识别对行人重新识别至关重要的个人物品(例如背包和标线)。在本文中,我们提出了身份引导的人类语义解析方法(ISP),在像素级定位人体部位和个人物品,以便仅使用人员身份标签对齐人员重新识别。我们设计了特征图上的级联聚类来生成人体部位的伪标签。具体来说,对于一个人的所有图像的像素,我们首先将它们分组为前景或背景,然后将前景像素分组为人体部分。集群分配随后用作人体部位的伪标签来监督部位估计,ISP 迭代地学习特征图并将它们分组。最后,根据自学习的部位估计得到人体部位和随身物品的局部特征,仅利用可见部位的特征进行检索。对三个广泛使用的数据集进行的大量实验验证了 ISP 优于许多最先进方法的优势。
关键词:人员重识别,弱监督人体解析,对齐表示表达学习
(关键点:语义分析生成part;级联聚类生成伪标签)
引言
除了语义分割,
还有1.pcb这样的横向切分,
2.基于自动定位的方法,试图通过学习的网格来定位人体部位(不熟)
3.注意力机制
上述大多数方法都是粗略的,其定位的部分有很多背景噪声,并且没有考虑到由于遮挡而在图像中消失的一些人体部分的情况。图1的第一行说明了这些流。
额外的语义方法无法检测到行人的物品
做了啥:1.在特征图上设计了级联聚类,并将聚类视为伪标签。
在特征图上的激活情况归入前景和后景(为什么:基于分类网络对前景像素的反应比对背景像素的反应更强烈这一合理假设)前景部分是网络自动搜索的。
2.给行人part分配前景像素,同一行人图像聚类,这样,当实例被遮挡时,单一图像的指定语义部分的数量可以自适应地变化
3.迭代聚类,然后用聚类概率图代表行人part,遮挡匹配时只匹配整体的局部和局部。
两个问题点:
如何正确分割前景和后景?
怎么实现聚类?
相关研究
图像级别监督的语义学习
弱监督,分类任务,与本研究没什么关系
对齐reid
切片:然而,基于条带的分区过于粗糙,无法很好地对齐人体部分并引入大量背景噪声
自动定位:然而,潜在部分的定位网格仍然很粗糙并且有很多重叠。 此外,它们产生固定数量的潜在部分,无法处理被遮挡的图像。
注意力:然而,这些方法无法明确定位语义部分,并且无法保证图像之间焦点区域的一致性(确实,所以2021年的APNet借用了MGN方法,放大了注意力注意范围)
额外语义:现成的模型在语义估计中会出错,并且这些方法不能在整个训练过程中纠正错误。 其次,背包、标线等可识别的个人物品,对于行人再识别至关重要,不能作为背景识别和忽略。
方法
像素级别局部对齐的表征学习(特征提取)
backbone返回的特征
一共分为K类聚类,K-1个特征和一个背景
K的置信度是P
Mk区分了聚类
P为0时为背景
伪局部标签生成的级联聚类
第一阶段:前景:前景比背景激活相应更高(下面三篇论文设置)
Residual attention network for image classification
convolutional block attention module
object region mining with adversarial erasing: A simple classification to semantic segmentation approach(擦除多次最重要注意力)
第二阶段:不同:分成K-1
优化器 线性层、softmax
目标函数(loss)
对齐表征匹配
同PGFA
后面还有实验就不说了