《Cross-modality Person re-identification with Shared-Specific Feature Transfer Yan》论文学习

该文提出了一种端到端的跨模态共享特定特征传输算法(cm-SSFT),旨在提高跨模态人像识别的性能。通过建模模态间和模态内的亲和性,该算法能够在模态间和模态内传递共享和特定特征,以补偿信息缺失并增强识别能力。此外,还引入了互补性特征学习策略,包括模式适应、项目对抗学习和重构增强,以学习各模态的差异性和互补性特征。这种方法优于传统的共享特征学习,因为它能够利用特定信息,且无需依赖图像生成。实验表明,cm-SSFT在跨模态人像识别任务上实现了最先进的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Abstract
Cross-modality person re-identification (cm-ReID) 现有的研究主要集中在学习模态——共享表示,通过将不同的模态嵌入到同一个特征空间中,降低特征差异的上界。本文提出了一种新的cross-modality shared- specific feature transfer algorithm((termed cm-SSFT),以探索模态共享信息和模态特定特征的潜力,以提高再识别性能。我们根据共享的特征对不同模态样本的亲和力进行建模,然后在模态之间和跨模态之间传递共享的和特定的特征。本文还提出了一种互补性特征学习策略,包括模式适应、项目对抗学习和重构增强,去学习每种模式的区别和互补、共享和特定的特征。
此外,cm-SSFT可以端到端的进行训练

Introduction
ReID的目的是从一个大型图库中找出同一个人的图像以及查询图像,许多方法都集中在特征学习和RGB模式的度量学习上。然而,对明亮照明环境的依赖限制了它们在真实复杂场景中的应用。其他种类的视觉传感器,如红外摄像机,现在被广泛用于作为弥补RGB摄像机克服这些困难,产生了广泛的研究兴趣RGB-红外交叉模态人ReID (cm-ReID)。
相比于传统的ReID,cm-ReID的主要困难是由于不同相机的成像过程不同而产生的模态差异,一些判别性线索,如RGB图像中的颜色,在红外图像中是缺失的。以往克服模态差异的方法可归纳为模态共享特征学习和模态特定特征补偿两大类。
共享特征学习的目的是将任意模态的图像嵌入到相同的特征空间中,将不同模态的特定信息,如RGB图像的颜色和红外图像的热信息作为冗余信息给剔除掉,然而像颜色这样的特定信息在传统的ReID中扮演者重要的角色,在只用共享线索的情况下,特征表示的识别能力的上界是有限的。因此,模态特定特征的表示方式试图弥补从一个模态到另外一个模态之间确实的特定信息。
双水平差异减少学习(D2RL)[45]是利用生成对抗网络(GAN)[8]生成多光谱图像以弥补特定信息缺失的典型工作。然而,一个人在红外模式下可以有不同颜色的衣服在RGB空间。图像生成可以有多种原因的结果。如果不记住有限的画廊集合,就很难决定哪一个是正确的生成目标来重新识别。
本文提出了a novel cross-modality shared-specific feature trans- fer algorithm (termed cm-SSFT) ,探索信道共享信息和信道特定特性的潜力,以提高再识别性能。它对模内样本和模间样本之间的亲和力进行建模,并利用它们来传播信息。每个样本接受来自其相邻的模态间和模态内的信息,同时与它们共享自己的信息。该方案可以弥补特定信息的不足,增强共享特征的鲁棒性,从而提高整体表示能力。
与共享特征学习方法的对比如图1所示,我们的方法可以利用传统共享特征学习中无法利用的特定信息。我们的方法依赖于邻近的亲和力建模,补偿过程也可以克服选择生成方法的困难。图1如下图所示:
在这里插入图片描述

主要贡献
1.本文提出了一种端到端的跨模态的共享特定特征传输算法(cm-SSFT),利用模态共享的特征信息,实现最先进的跨模态人ReID性能。
2.提出了一种基于模态间亲缘性和模态内亲缘性建模的特征传递方法,使得信息在模态间和模态间的按照相邻的模式传播。从而有效的利用的每个样本的共享信息和特定信息。
3.提出了一种新颖互补的学习方法,分别提取各模态的判别性和互补性的共享特征和特定特征,进一步提高了cm-SSFT的有效性。
Related work

Person ReID[53]的目标是在一个大型图库中搜索目标人物图像,并查询图像。最近的研究主要是基于深度学习来获得更具判别性的特征[6,18,49,56]。有些人将其作为局部特征学习任务,更注重更强大的网络结构来更好地发现、对齐和描述身体部位[10,38,39,26]。其他方法基于度量学习,关注适当的损失函数,如对比损失[40],三联体损失[17],四联体损失[2]等。这两种方法都试图放弃不相关的线索,如姿态、视角和光照变化的特征和度量空间。最近的基于解纠缠的方法沿着这个方向进一步扩展,将每个样本分解为与身份相关和与身份无关的特征,获得没有冗余线索的更纯粹的表示。
上述方法对每个样本进行独立处理,忽略了人物图像之间的联系。最近的自我注意[41,29]和基于图表的方法[1,34,35,48]试图建立样本对之间的关系模型。Luo等人提出了光谱特征变换方法来融合不同身份[29]之间的特征。Shen等人提出了相似引导图神经网络[35]和深度群变换随机漫步[34]来融合不同样本的残差特征,获得更稳健的表示。Liu等人利用近邻域来处理无监督ReID[28]。
有人提出了这一种基于双流的模型和双向的top-ranking loss函数用于共享特征嵌入,为了使共享特征更加纯粹。Dai提出了一种生成式对抗性训练方法用于共享特征的学习,这些方法都只注重特征的共享学习,而忽略了特定特征的潜在价值,因此,其他一些工作试图利用模态特有的特征,并关注跨模态GAN

Cross-Modality Shared-Specific Feature Transfer
cm-SSTF的概述图如下图所示:
在这里插入图片描述
输入图片输入到两个流的特征提取器来获得共享和特定的特征,然后特定共享的传输网络(SSTN)对通道内和通道间的亲和性进行了建模。它跨模态传播共享的和特定的特性来弥补缺乏的信息并增强共享的特性,为了获得具有区别性和互补性的共享的和特定的特征,在特征提取器上增加了两个项目对抗和重构模块和一个模态适应模块,整个算法结构是端到端的方式训练的。
我们用上标的R、I和S来区分RGB模态、红外模态和共享空间。我们分别用H和P表示共同特征和特定特征
3.1. Two-stream feature extractor
如图所示,结构包括modality-shared stream(blue)和modality-specific stream((green blocks for RGB and yellow blocks for IR),输入图像为Xm(m属于RI)会经过卷积层和特征块生成共享特征和特定特征。为了获得更好的性能,我们在较浅的卷积层分离共享流和特定流,而不是在较深的全连接层
在这里插入图片描述
为了保证这两种特征都具有判别性,我们在每一种特征上分别添加了分类损失Lc
在这里插入图片描述
此外,我们还在特定特征上增加了单模态三部损失,在共享特征上增加了跨模态三部损失,以获得更好的可辨识性:
在这里插入图片描述
where ρ1 and ρ2 are the margins of LcmT and LsmT, respectively. i, j, k represent indices of the anchor, posi- tive of the anchor and negative of the anchor of triplet loss (yi = yj, yi 6= yk).
3.2. Shared-Specific Transfer Network
双流网络提取每个通道的共享和特定特征。为了统一的特征表示,我们用三段格式填充和表示每个模态的特征:[RGB-specific;shared;Infrared specific]如下:
在这里插入图片描述
其中0为填充零向量,表示RGB模态的样本没有红外模态的特定特征,反之亦然,[•;•]表示在柱体维度上的连接。对于跨模态检索,我们需要将特定的特征从一个模态转移到另一个模态,以补偿这些零填充向量。在图卷积网络(graph convolutional network, GCN)的启发下,我们利用邻近的邻居来传播信息,同时保持整个样本空间的上下文结构。所提出的共享专用性传输网络可以弥补网络中缺乏的专用性特征,同时提高网络整体表示的鲁棒性。如图上图所示,SSTN首先根据两种特征对样本的亲缘关系进行建模。然后利用亲和性模型传播模内信息和模间信息。最后,特征学习阶段以分类和三重损失指导整个过程的优化。
Affinity modeling
我们使用共享的和特定的特性来建模两两的亲缘关系。我们取具体特征来计算模内亲和性和模间共享特征如下:
在这里插入图片描述
式中,Am,m ij是第i个样本与第j个样本的模态内亲缘关系,两者都属于m模态。Am,m 'ij是相互亲和。d(a, b)为归一化欧氏距离度量函数:
在这里插入图片描述
内部相似度和内部相似度代表了每个样本与相同和不同模态的其他样本之间的关系。我们将最终亲和矩阵定义为:
在这里插入图片描述
其中T(•,k)是近邻选择函数。它保留矩阵每一行的前k个值,其余的为零。
Shared and specific information propagation.
亲和矩阵表示样本之间的相似性。SSTN利用这个矩阵来传播特征。在此之前,在行维上对RGB模态和红外模态的特征进行拼接,每一行存储一个样本的特征:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
遵循GCN的方法,我们获得亲和矩阵A的对角矩阵D,然后填充后的特征以近邻结构传播,然后学习的非线性变换融合,在特征融合之后,传播的特征包括两种模态的共享特征和特定特征。
在这里插入图片描述
传播的特征最终被喂进特征学习阶段去优化整个学习阶段。迁移特征可以表示如下:
在这里插入图片描述
遵循共同特征学习原则,我们使用特征学习的分类损失:Lc™
在这里插入图片描述
另外,我们在转移特征上利用三部损失来增加判别性,因为转移特征既包括两种模态的共同特征,也包括两种模态的具体特征。我们将cm-triplet loss LcmT(T)和sm-triplet loss LsmT(T)同时加在其上,以便更好地辨别:
在这里插入图片描述
3.3. Shared and specific complementary learning
SSTN探索了一种新的方法利用共享和特定的特征来产生更有区别性的损失,然而,总体性能仍然会受到共享特征和特定特征之间的信息的重叠影响,。首先,如果共享的特征包含很多模态特定信息,则会影响式(6)中相互相似矩阵的可靠性,导致不准确的特征传递。其次,如果特定特征与共享特征高度相关,则特定特征只能对共享特征提供很少的补充。由于信息共享,特定特征中的冗余信息也会影响式(6)中模内相似度矩阵的灵敏度。为了缓解上述两个问题,我们利用模态适应性去从共享特征中过滤模态特定信息。
我们也提出了一个项目的对抗策略和重建增强互补模式-特定特征学习。
Modality adaptation for shared features.
为了将共享特征净化为与模态无关,我们利用三个全连接层的模态判别器对每个共享特征的模态进行分类:

在这里插入图片描述
测得的数据d代表模式辨别器的参数。p(m|Hmi)是属于模态m的特征Hmi的预测概率。在判别阶段,模态判别器将尝试对每个共享特征的模态进行分类。在生成阶段,backbone网络将生成特征以愚弄识别器。这个最小最大的游戏将使共享的功能不包含任何形式相关的信息。
Project adversarial learning for specific features.
为了使特定特征与共享特征不相关,我们提出了项目对抗策略。在训练阶段,我们将特定的特征投影到同一样本的共享特征上。投影误差作为损失函数
在这里插入图片描述
optimization of Θmp will try to project the specific features to the corresponding shared features. While in the generation stage, the backbone network will generate specific features uncorrelated with shared features to fool the projection. This adversarial training can make the feature spaces of the two kinds of features linearly in- dependent. Alternatively minimizing and maximizing the projection loss will lead the backbone network to learn spe- cific patterns different from shared features.
Reconstruction enhancement.
模式适应和项目对抗性学习确保共享和特定的特征不包含相互间的相关信息。为了增强这两个特征的互补性,我们在每个模态的特征后使用解码器网络来重建输入。我们将共享的和特定的特征连接起来,并将它们输入解码器De:
在这里插入图片描述
在[•;•]表示特性连接。L2损耗用于评价重建图像的质量:
在这里插入图片描述
重构任务对总体信息损失进行约束。结合项目模式适应和对抗性学习,引导共性和特殊性自我区别、相互补充。

再反复看下总结!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值