Identity-Guided Human Semantic Parsing for Person Re-Identification分析-优快云博客

本文链接：https://blog.youkuaiyun.com/beef0724/article/details/120723435

该研究提出了一种名为ISP的身份引导人类语义解析方法，用于改进行人重识别。ISP利用级联聚类生成像素级伪标签，以定位人体部位和个人物品，即使在遮挡情况下也能进行精确对齐。与现有方法相比，ISP能更好地处理背景噪声和遮挡，同时检测行人的个人物品，这对于行人重识别至关重要。实验表明ISP在多个数据集上表现出优越性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Identity-Guided Human Semantic Parsing for Person Re-Identification

摘要

现有的基于对齐的方法必须采用预先训练的人体解析模型来实现像素级对齐，并且无法识别对行人重新识别至关重要的个人物品（例如背包和标线）。在本文中，我们提出了身份引导的人类语义解析方法（ISP），在像素级定位人体部位和个人物品，以便仅使用人员身份标签对齐人员重新识别。我们设计了特征图上的级联聚类来生成人体部位的伪标签。具体来说，对于一个人的所有图像的像素，我们首先将它们分组为前景或背景，然后将前景像素分组为人体部分。集群分配随后用作人体部位的伪标签来监督部位估计，ISP 迭代地学习特征图并将它们分组。最后，根据自学习的部位估计得到人体部位和随身物品的局部特征，仅利用可见部位的特征进行检索。对三个广泛使用的数据集进行的大量实验验证了 ISP 优于许多最先进方法的优势。

关键词：人员重识别，弱监督人体解析，对齐表示表达学习

（关键点：语义分析生成part；级联聚类生成伪标签）

引言

除了语义分割，
还有1.pcb这样的横向切分，
2.基于自动定位的方法，试图通过学习的网格来定位人体部位（不熟）
3.注意力机制
上述大多数方法都是粗略的，其定位的部分有很多背景噪声，并且没有考虑到由于遮挡而在图像中消失的一些人体部分的情况。图1的第一行说明了这些流。

额外的语义方法无法检测到行人的物品
在这里插入图片描述
做了啥：1.在特征图上设计了级联聚类，并将聚类视为伪标签。
在特征图上的激活情况归入前景和后景（为什么：基于分类网络对前景像素的反应比对背景像素的反应更强烈这一合理假设）前景部分是网络自动搜索的。
2.给行人part分配前景像素，同一行人图像聚类，这样，当实例被遮挡时，单一图像的指定语义部分的数量可以自适应地变化
3.迭代聚类，然后用聚类概率图代表行人part，遮挡匹配时只匹配整体的局部和局部。

两个问题点：
如何正确分割前景和后景？
怎么实现聚类？

方法

像素级别局部对齐的表征学习（特征提取）

backbone返回的特征
在这里插入图片描述
一共分为K类聚类,K-1个特征和一个背景
K的置信度是P
Mk区分了聚类
P为0时为背景

伪局部标签生成的级联聚类

第一阶段：前景：前景比背景激活相应更高（下面三篇论文设置）
Residual attention network for image classification
convolutional block attention module
object region mining with adversarial erasing: A simple classification to semantic segmentation approach（擦除多次最重要注意力）

第二阶段：不同：分成K-1

优化器 线性层、softmax