A Pose-Sensitive Embedding for Person Re-Identification with Expanded Cross Neighborhood Re-Ranking

本文提出了一种结合人粗略和精细姿态信息的无监督重排序方法,通过扩展交叉邻域距离提高检索性能。研究证明,简单地结合视图信息和全身关节位置可以学习到更有效的表示,而无需复杂的图像对齐或部分匹配。此外,提出的扩展交叉邻域距离框架在不计算新排名列表的情况下实现了最先进的重排序性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

A Pose-Sensitive Embedding for Person Re-Identification with Expanded Cross Neighborhood Re-Ranking(re-ranking 方法)

github: https://github.com/pse-ecn/expanded-cross-neighborhood

本文提出的方法结合了人的精细和粗略姿态信息来学习判别嵌入。与最近明确建模身体部位的方向或基于这些方向校正错位的方向相反,将采集的相机视图和/或检测到的关节位置包含在卷积神经网络中有助于学习非常有效的表示。

为了提高检索性能,基于计算距离的重新排序技术最近受到了很多关注。我们提出了一个新的无监督和自动重新排名框架,与当前最先进的重新排序方法相比,该方法不需要为每个图像对计算新的秩列表(例如,基于相互邻居),并且通过使用简单的直接排序列表或者甚至通过仅使用图像之间已经计算的欧几里得距离来进行。

1.introduction

大多数以前的解决方案试图通过应用简单的分类损失或使用度量学习损失来学习使用卷积神经网络(CNN)的人的全局外观。为了更好地学习本地统计,已经将相同的方法应用于图像区域,例如,通过使用水平条纹或网格[22,6]。由于不同视图和人的姿势之间匹配的固有挑战,因此图像的局部区域之间不存在隐式对应(见图1)。这种对应可以通过明确使用全身姿态信息进行对准[37]或通过匹配相应的检测身体部位[47,48]来建立。通过结合身体姿势或身体部位信息来使global person description更有效。

 

论文表明,结合人的粗略姿势(即相对于相机捕获的视图)或精细的身体姿势(即关节位置)的简单线索足以学习具有简单分类损失的非常区别表示。

论文证明,在标准的底层CNN体系结构上学习和组合视图特定的特征映射会导致显着更好的重新嵌入。类似地,将身体关节位置并入作为附加输入通道有助于提高重复精度。

 

这项工作的第二个贡献是引入了扩展交叉邻域距离概念的新的重新排序方法。该方法聚合探测器和图库图像的近邻的距离,其中距离可以简单地是直接欧氏距离或基于等级列表的距离。我们证明,在这个更一般的重新排序框架内,基于直接获得的等级列表的简单等级列表比较实现了最先进的重新排序性能,而不需要重新计算新的等级列表。

 

2.related work

所有这些工作主要仅依靠细粒度的姿态信息。此外,这些方法要么包括通过明确规范化输入图像的姿态信息,要么通过显式建模零件定位并将它们与其架构进行匹配。与此相反,我们的方法依赖于由姿态估计器生成的置信度图,它们作为附加通道添加到输入图像中。这使我们的CNN学习过程具有最大程度的灵活性,并将其留给网络,以了解哪些身体部位相关且可靠以便重新识别。除了这种精细的姿势信息,我们还表明更粗糙的姿势提示更加重要,并且可以有效地用于改善重re-id表现。

与常见或相互邻居相反,并根据这些列表生成新的等级列表,我们提出了扩展邻居的概念,并将它们之间的交叉距离聚集在一对图像中。我们将证明这会产生一个更有效的重新排名框架。

 

3. Pose-Sensitive Embedding

一个人的姿势和相机的方向会极大地影响图像的视觉外观。 明确地将这些信息纳入到re-id的学习过程中往往会增加结果的准确性。

先前的作品依赖于细粒度姿态信息(例如联合关键点)或粗略信息(例如,相机的定向)。 在本节中,我们将描述两种将粒度级别纳入姿态敏感嵌入的方法。 两种方法都可以同时纳入同一基线CNN体系结构,我们的实验表明,两种方法的组合都比单独一种方法获得更高的准确性。 2描述了我们的CNN架构和两种类型的姿态信息的概述.

3.1. View Information

我们使用人脸定位的量化['front''back''side']作为粗略的姿势信息。由于这些信息取决于相机和行人,在本作品的其余部分将其称为视图信息

论文将视图信息纳入重新识别嵌入的灵感来自最近Sarfraz等人的工作。 [32]关于语义属性识别。三元视图分类器被添加为我们主要的re-id CNN的分支。然后通过复制现有层将主CNN的尾部分成三个等效单元。视图分类器的三个视图预测分数用于对每个这些单元的输出进行加权。这调制了流过单元的梯度,例如,对于具有强烈“前”预测的训练样本,主要由前加权加权的单位将有助于最终嵌入,因此只有该单元将对当前训练样本获得较强的梯度更新。此过程允许每个单元学习专门用于三个视图之一的特征映射。

重要的是,与[32]相反,论文不加权和融合最终嵌入或预测向量,但将权重应用于全特征映射,然后将其组合到最终嵌入中。这实现了更强大的表示。(如figure2

 

由于通常不能假定在我们想要训练嵌入的re-id数据集上有可用的注释。因此,我们在提供这种注释的单独的RAP [20]行人数据集上预先生成相应的视图分类器。然后,我们直接将分类器转移到我们的re-id模型。为了降低模型的复杂性,可以在视图预测器和re-id网络之间共享低级特征(即早期层)。
 

在默认的ResNet-50体系结构中,在第三次降维步骤之后(即在特征映射维度28×28×256), view predictor分支从主网络分离。然后,我们应用三个连续的步长为225的卷积来进一步减小尺寸(至1×1×1024)。得到的特征向量用于使用三向softmax预测视图。对于view units,我们使用三个重复的ResNet Block-4。将单元的7×7×2048尺寸融合输出汇集并馈送到产生我们的1536维嵌入的完全连接层。

3.2. Full Body Pose

作为一个人的姿势的细粒度表示,我们使用14个主体关节点的位置。为了获得这些信息,我们使用现成的DeeperCut [15]模型。与先前使用用于重新标识的姿势信息相比,我们不使用此信息来明确地标准化输入图像。相反,我们通过为14个关键点中的每一个添加一个额外的输入通道,将这些信息纳入训练过程。这些频道用于指导CNN的注意力,并给予它充分的灵活性,以便自己学习如何最好地将联合信息应用到所产生的嵌入中。为了进一步提高这种灵活性,我们不依赖于DeeperCut方法的最终关键点决定,而是为每个关键点提供我们的re-id CNN完整置信度图。这防止了基于hard关键点决策的任何错误输入,并使我们的模型有机会补偿或至少识别出不可靠的姿势信息。

 

3.3. Training Details

我们使用ImageNet分类预先训练的权重初始化所有CNN。为了训练带有视图信息的模型(3.1节),我们首先对RAP数据集中的视图 - 预测器分支进行微调[20]。接下来,我们只训练目标re-id数据集上的视图单元和最终人员身份分类层。视图单位之前的视图预测变量和所有图层的权重对于此阶段是固定的。这允许随机初始化视图单元和最终图层适应先前图层的现有权重。最后,我们调整整个网络直到收敛。

 

在训练包含全身姿态信息的嵌入时(第3.2节),由于附加的14个关键点通道,ImageNet权重与我们输入的大小不匹配。为了使网络适应17个通道的输入(14关键点+rgb3通道),我们只通过微调第一层(图2中的第0层)和最终的人身份分类层来开始我们的训练,这两个层都是随机初始化的。网络的其余部分保持不变。一旦这两层适应网络的其余部分(即观察到收敛),我们就通过微调整个网络来进行。

对于我们的最终姿态敏感嵌入(PSE),我们将两种类型的姿态信息结合到一个网络中,如图2所示。我们使用前一节中描述的全身姿态模型初始化训练,并将视图预测器添加到其上。视图预测器在RAP数据集上使用姿势地图进行微调,并且可以从额外的全身姿态信息中受益。然后,如上所述,对目标re-id数据集执行网络的re-id元素的进一步微调。对于我们所有的CNN嵌入,我们使用相同的训练协议。输入图像被归一化为通道零均值和标准变化1.数据增强通过将图像调整为105%宽度和110%高度并随机裁剪训练样本以及随机水平翻转来执行(这是我们不区分左右视图的主要原因)。使用Adam优化器在推荐参数下进行训练,初始学习率为0.0001,每个epoch衰减0.96

 

4. Expanded Cross Neighborhood

(感觉和k-reciprocal比提升有限,公式表达很模糊,不看了- -代码可以看一看)

与这些方法不同,我们引入了扩展交叉邻域(ECN)距离的概念,它可以提供非常高的性能提升,而不是严格要求排名列表比较。我们表明,对于一个图像对,只有每个图像的直接邻居与另一个图像的距离才能得到有利的重新排序。在这个基于交叉邻域的距离框架内,基础累积距离可以是原始的欧氏距离或重新计算的基于等级列表的距离。我们还表明,在这个框架内,对最初获得的排名表使用简单的列表比较度量可以实现最先进的排名表现。我们的方法是全自动的,无需监督,并且可以在不需要的情况下运行良好计算新的等级列表。

P的扩展领域set N(p,m),其中N(p,t)p直接ranking listt

N(t,q)包含set N(p,t)中每个直接q个邻居,所以M = t + t × q.

ECN距离只是将每个图像的扩展邻居的距离与另一个图像配对的距离进行聚合。虽然我们在评估中显示,在等式3中使用直接欧式距离导致秩精度的类似改进,但也可以使用更稳健的基于秩的距离来进一步增强性能,特别是在均值平均精度(mAP)。

列表相似度是根据这两个列表的前K个邻居的位置来衡量的。对于具有N个图库图像的等级列表,让posin)表示图像n在有序等级列表Li中的位置。就仅考虑列表中的前K个邻居而言,秩列表相似度R由下式给出:

参数tqK(在使用等级列表距离的情况下)用于计算最终的ECN距离被设置为t = 3q = 8K = 25。(t是辅助的数量 q是辅助列表的长度 K 是重排序列的长度)

尽管我们表明这些参数选择在多个不同大小的数据集上的性能方面非常稳定,但是可以直观地看到使用在第一级(t)中最强的顶级邻居并且在第二级(q)将这些扩展到几个更有意义。注意,由于我们邻居的邻居扩展仅仅寻找邻居的第一和第二级别,所以我们不需要计算昂贵的KD树或邻域图来获得方程1中的这些扩展集合,我们可以容易地从最初计算有序秩列表矩阵。

Distance based Re-Ranking

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值