Dual-Semantic Consistency Learning for Visible-Infrared Person Re-Identification-第一个在通道级别制定跨模态身份识别的框架
基于双语义一致性学习的可见红外人物再识别
IEEE Trans. Inf. Forensics Secur
CCF-A类,中科院一区
代码地址:https://github.com/bitreidgroup/DSCNet
Abstract
问题:针对可见光和红外光的模态差异
现有解决方法:
1.最大化模态不变性(提取模态的不变特征-间接信息损失)
2.最小化跨模态特征的相异性(基于GAN的方法-不可避免噪声引入)
本文创新:提出框架双重语义一致性学习网络(Dual-Semantic Consistency Learning Network),将模态差异归因于通道级语义不一致(文中认为红外光不被简单的认为R/G/B组成的图像,它可以探索可见光无法胜任的现象,识别无法区分的物体,由此产生通道级别的语义差异)。
- DSCNet从细粒度的通道间语义和综合模态间语义两个方面优化了通道一致性。即信道间语义一致性学习(Inter-Channel Semantic Consistency learning (ICSC) )和模态间语义一致性学习(Inter-Modality Semantic Consistency learning (IMSC))
- 提出了**联合语义度量学习(JS)**来同时优化通道和模态特征嵌入的分布,它以细粒度的方式联合利用通道特定语义和模式特定语义之间的相关性。
效果:数据集:SYSU-MM01和RegDB
在SYSU-MM01数据集上,本文的网络可以实现73.89%的Rank-1准确率和69.47%的mAP值。
计算机词汇:Visible-infrared person re-identification可见红外人物再识别 fine-grained细粒度的 Joint联合 Semantics语义 Metric度量 Extractor提取器
Feature distribution特征分布(数据集中某个特征的数值分布情况。数值型或离散型) weight shared(权重共享) high-level高层次特征 Feature Maps(特征图) residual残差 pretrained预训练 maginal weights边缘权值 tensor张量(多维数组或矩阵,表示神经网络的输入,权重,输出,例[图像高度,图像宽度,图像通道数]) information entropy信息熵
框架
思路:将下图灰度→彩色的方法用于红外模态。红绿蓝分别代表从R/G/B通道提取的特征。
如图为信道间语义一致性学习(ICSC,&III-B)和模态间语义一致性学习(IMSC,&III-C).
- ICSC通过提高信道间数值分布的相似性来最大化信道内语义一致性。
- IMSC通过减少模态特定特征之间的距离,在综合层面上最大限度地减少了模态间信道语义不一致。
- 联合语义度量学习(JS,&III-D):利用通道内模态和通道间模态的语义一致性(ps:在模态和通道级别上限制身份的特征表示之间的距离)来缩小可见光和红外模态之间的差距。
- 目标函数和算法(&III-E)
总的效果:
- 减少了类内实例之间的差异,这样跨相同身份的模态的通用语义将更加集中。
- 强化通道与同一身份的情态语义之间的相关性,增强辨别力,避免了表达情态语义差异的困难。
A.规划
可见光图像:V={
X
v
X^{v}
Xvi |
X
v
X^{v}
Xvi∈V},红外光图像:R={
X
r
X^{r}
Xri |
X
r
X^{r}
Xri∈R}
对应ground-truth真值标签:yv={ |
X
v
X^{v}
Xvi∈V},yr={
|
X
r
X^{r}
Xri∈R}
用代表
y
v
y^{v}
yvi,用
代表
y
r
y^{r}
yri
优化目标是当可见图像
X
v
X^{v}
Xvi和红外图像
X
r
X^{r}
Xrj属于相同身份时最大化其mapping similarity,并且保持不同身份的区分度。
可见光图像包含三个颜色通道,表示为
X
v
X^{v}
Xvi=
X
v
X^{v}
Xvi(
R
v
R^{v}
Rvi,
G
v
G^{v}
Gvi,
B
v
B^{v}
Bvi)。同时,通过颜色转灰度方法的逆操作,单通道红外图像也可以转换为三通道表示为
X
r
X^{r}
Xri=
X
r
X^{r}
Xri(
R
r
R^{r}
Rri,
G
r
G^{r}
Gri,
B
r
B^{r}
Bri)。
特征提取器θe提取可见图像和红外图像的表示
f
v
f^{v}
fvi,
f
r
f^{r}
fri。因此,优化目标可以表达为:
L(·)表示变体的mapping映射计算。
理解:用特征提取器提取三通道RGB的
X
v
X^{v}
Xvi和
X
r
X^{r}
Xri,再对其与真值
y
v
y^{v}
yvi和
y
r
y^{r}
yri进行映射。
我们首先通过提取器θv和θr(预训练ResNet-50的第一残差1层)从可见光和红外图像中提取特征。然后设计了跨通道和跨模态的语义一致性学习。语义一致的特征被馈送到权重共享层中,用于学习更高级别的表示。我们通过联合语义度量学习来监督跨模态检索。
ICSC 信道间语义一致性学习
作用:ICSC通过提高信道间数值分布的相似性来最大化信道内语义一致性。
前提:通道语义本质上表示细粒度和多样化的与身份相关的信息。红外图像是根据物体表面的辐射量捕获的,所以不能将其视为由三个通道组成的普通图像。
对于红外图像,尝试使用网络学习与可见图像相似的R/G/B通道分布,用模态特定提取器θv和θr获得模态特定特征。在通道维度上分割
f
v
f^{v}
fvi和
f
r
f^{r}
fri表示为
f
v
f^{v}
fvi=,
f
r
f^{r}
fri=
,其
∈
,
C
′
′
C^{''}
C′′=
C
′
C^{'}
C′/3。目标是将
f
R
v
f^{Rv}
fRvi与
f
R
r
f^{Rr}
fRri,
f
G
v
f^{Gv}
fGvi与
f
G
r
f^{Gr}
fGri,
f
B
v
f^{Bv}
fBvi与
f
B
r
f^{Br}
fBri的语义分布对齐。
- (a)表示通道间语义一致性学习过程
- (b)表示模态间语义一致性学习过程
- ©表示双语义一致性学习的组成
将通道内一致性定义为通道特征
f
R
v
f^{Rv}
fRvi,
f
G
v
f^{Gv}
fGvi,
f
B
v
f^{Bv}
fBvi与
f
R
r
f^{Rr}
fRri,
f
G
r
f^{Gr}
fGri,与$f^{Br}$i~之间的逻辑分布相似度。在张量中,三通道卷积权重的中间位置相比边缘位置更稳定地得到更新,这导致绿色权重的核空间在提取通道语义时更可靠。由于在绿色核空间中的值迭代更稳定,提取的特征更适合作为中心位置。可见光和红外特征都需要对通道级别的一致性进行改进,公式化表示为:
其中,LICSC表示红色和绿色通道之间的语义一致性,LICSC表示蓝色和绿色通道之间的颜色通道的语义一致性。在ICMC中,我们专注于更新模态特定提取器θv和θr的参数。这可以确保最大化模态内通道语义的一致性,并最小化通道间的语义差异。θv和θr的参数可以进行优化,如下所示:
通过加强特定模态的特征提取器学习通道级一致的信息,ICMC在很大程度上减轻了每个模态内部的差异。
IMSC 模态间语义一致性学习
作用:表示可见和红外特征分布在模态水平上的相似性
通过获得具有模态内通道语义一致性的模态特定特征
f
v
f^{v}
fvi,
f
r
f^{r}
fri进一步消除了模态间的通道语义差异。由于特定于模态的提取器θv, θr在模态中提取独立且直观的特征,因此我们用特征语义的欧几里德中心
C
v
C^{v}
Cv,
C
r
C^{r}
Cr来表示每个模态:
其中,Nv和Nr分别表示可见光和红外模式下的样品数量。Cv和Cr是分批计算的。无论身份如何,IMSC都采用异构语义来学习模态级信道语义一致性的表示。欧几里得中心之间的距离Cv和Cr可以根据度量学习对齐,从而通过进化的特定模态提取器提取的特征θv和θr将代表更多的模态一致性。
Cv,Cr,
f
v
f^{v}
fvi,
f
r
f^{r}
fri∈
R
B
×
C
′
×
H
′
×
W
′
R^{B×C'×H'×W'}
RB×C′×H′×W′i
目标是最大化跨模态语义一致性,最小化可见光和红外特征差异:
因此,本文提出的IMSC可以全面提高模态共享身份语义的一致性,并减少模态层面的信道差异。
图3 ©展示了ICSC和IMSC的合作。双语义一致性学习的优点有两个方面。
- 一方面,我们的目标是提取具有代表性的模态特定语义,这些语义本质上代表了单一模态中身份的歧视。
- 另一方面,我们可以有效地保持特定于模态的特征,并控制综合的跨模态匹配。
JS联合度量学习
大多数现有的度量学习方法都非常重视处理身份特征的语义之间的距离,例如ID损失:
加权正则化三元组损失:
这里的d代表两个样本之间的距离。ID损失和三元损失通过优化实例级别的特征分布来进行优化。一些方法采用中心损失[22]来减少变化并学习代表性特征。但是它们仍然停留在实例级别上。一方面,由通道语义组成的实例语义决定了停留在实例级别上的优化将是一种粗粒度的方法。另一方面,从实例中提取的特征往往容易受到噪声和屏蔽等因素的影响,导致模态差异和实例变化方面的混淆和困惑。
- (a) 根据从不同通道提取的特征进行身份预测的过程。
- (b) 困难样本挖掘的过程。
本文从两个方面增强了表示空间中的语义一致性。为了提升语义的身份区分能力,我们设计了跨模态和跨通道的语义一致性学习。此外,为了充分利用跨模态的语义一致表示的优势,我们提出了联合语义度量学习(JS)来处理这个问题。JS的策略如图4所示。形式上,我们从特定于模态的提取器θv和θr中获得了语义一致的特征
f
v
f^{v}
fv和
f
r
f^{r}
fr。
f
v
f^{v}
fv和
f
r
f^{r}
fr提供了相应的通道语义表示。然后,我们利用权重共享特征提取器θw获得高维表示[
f
R
v
f^{Rv}
fRv,
f
G
v
f^{Gv}
fGv,
f
B
v
f^{Bv}
fBv],[
f
R
r
f^{Rr}
fRr,
f
G
r
f^{Gr}
fGr,
f
B
r
f^{Br}
fBr]∈
R
B
×
C
′
×
H
′
×
W
′
′
R^{B×C'×H'×W''}
RB×C′×H′×W′′,以及身份之间的模态共享的区分性(图4(a))。
这些通道级特征与grounf-truth标签之间的关系,可以用信息熵来表示,并由信道级ID损耗Lcid来监督。
其中,p(·)表示可见光通道特征
f
R
v
f^{Rv}
fRvi,
f
G
v
f^{Gv}
fGvi,
f
B
v
f^{Bv}
fBvi属于身份
y
v
y^{v}
yvi的预测概率,或红外通道特
f
R
r
f^{Rr}
fRri,
f
G
r
f^{Gr}
fGri,
f
B
r
f^{Br}
fBri属于身份
y
r
y^{r}
yri的预测概率。p是通过交叉熵计算得到的。此外,我们对通道级特征的分布进行约束,以更细粒度地优化跨模态人员检索,并提出了通道级加权正则化三元损失函数(Channel-level Weighted Regularized Triplet Loss)。
其中(i, j, k)表示在训练过程中挖掘的难以区分的三元组样本,上标p和n分别表示正样本和负样本。联合语义度量学习的损失函数可以表示为:
在联合语义度量学习过程中,我们重点更新了权重共享特征提取器θw的参数。它优化了通道级特征嵌入的分布。此外,该模型还可以避免实例变化和模态差异的混淆。参数θw可优化为:
目标函数
提出的 DSCNet包含ICSC、IMSC和JS结构。DSCNet 的目标函数通过以下项进行改进。
LICSC(θv,θr)减小了颜色通道之间的语义差异。
LModal(θv,θr)加强了跨模态表示的语义一致性,并在很大程度上消除了模态差异。
LJoint(θw)在信道级别上优化信道特征嵌入的分布,并利用信道和模态的联合语义一致性。
综上,目标函数为:
值得注意的是,目标函数针对的是整个网络中不同的模块。LI C SC−I, LI C SC−I I, LModal优化了模态特定提取器θr和θv, an和LJoint优化了权重共享提取器θw。
将它们结合起来监督网络,以提取具有突出的模态和信道语义一致性的模态无关特征。
实验结果
1.实验设置 A
2.实现细节 B
3.消融实验 C
4.参数分析 D
5.可视化 E
6.与现有最先进方法比较
B实现细节
1)训练:我们在一台NVIDIA 2080Ti GPU上使用PyTorch实现了DSCNet。首先,采用在ImageNet上预训练的ResNet-50作为视觉特征提取的骨干网络。模态特定的提取器θv和θr由ResNet独立初始化。采用权重共享网络θw来提取高维特征,并以AGW [2]中的通道级随机擦除 (CRE) [25]作为骨干网络。实例的批大小设置为48。在训练阶段,有24个可见模态还有24张红外图像,和6个人的小批次。我们利用常见的数据增强操作,包括随机裁剪、水平翻转和信道级随机擦除。对于通道随机擦除,每个图像被裁剪成288 × 144并翻转,然后在通道级别上擦除。SGD优化器设置为动量p=0.9,衰减d=5×
1
0
−
4
10^{−4}
10−4。特征提取器θv, θr,θw的学习率被设置为分类器的1/10。我们设计了预热学习率,初始值为0.1。它在20到39个epoch之间衰减到0.01,在40到49个epoch之间衰减到0.003,在50个epoch之后衰减到0.001。
2)测试:我们使用训练好的双流网络提取查询集和图库集之间的图像特征,并采用分类器进行重新识别。在这个过程中,不需要使用ICSC和IMSC模块。
C消融实验
为了验证ICSC、IMSC和JS的功能,我们在SYSU-MM01数据集上进行了不同的实验,分别在all-search模式和in-door模式下评估了这三个组件及其组合的效果。消融研究的结果如表I所示。在仅使用Base设置(第一行),我们使用损失函数Lid和Lwrt进行身份区分。
- 联合语义度量学习(JS)的有效性:在all-search模式下,设置Base+Lcid采用Lcid代替Lid。在Rank-1上获得了2.08%的提升,在mAP上获得了2.26%的提升。类似地,Base+Lcwrt采用Lcwrd代替Lwrt。与Base相比,在Rank-1上取得了2.81%的改进,在mAP上取得了1.55%的改进。Base+Lcid+Lcwrt的效果比单独采用Lcid和Lcwrt更好。联合语义度量学习基于模态和通道的语义一致性。
- 信道间语义一致性学习(ICSC)的有效性:在ICSC中,有两个主要的损失,LICSC-I和LICSC-II。由于我们发现保持红色和蓝色通道与绿色通道一致比其他通道设置更好,因此我们仅进行实验评估LICSC-I和LICSC-II的性能,而不是另一种通道语义一致性学习策略。如表I所示,以all=search模式为例,具有JS的基线被表示为 base+Lcid+Lcwrt,在Rank-1得分上获得了62.58%,在mAP得分上获得了57.98%。当使用额外的LICSC-II损失进行训练时,Rank-1得分提高了1.87%,mAP得分提高了3.35%。
- 模态间语义一致性学习(IMSC)的有效性:与ICSC不同,IMSC约束两种模态特征的中心点接近。如表I所示,LModal代表了模态间损失函数。我们以all-search模式为例。可以发现,通过IMSC约束,具有Lcid和Lcwrt的基线在Rank-1准确率上提高了3.42%,mAP提高了5.52%。在base+Lcid+Lcwrt+LICSC-II+LModal设置中,Rank-1和mAP的指标得分分别提高了6.60%和6.85%。在base+Lcid+Lcwrt+LICSC-I+LModal设置中,两个度量分数分别提高了8.15%和7.53%。
D.参数分析
方程12引入了超参数λ1、λ2和λ3来平衡不同损失函数的贡献。因此,我们通过测试每个超参数在1到8个不同值上的表现来分析网络的超参数。如图6所示,随着λ1、λ2和λ3值的增加,Rank-1得分呈现不同程度的下降趋势。可以发现,当参数λ3增加时,Rank-1成绩显著下降。根据目前学习率下的实验结果数量,当λ1、λ2和λ3都设为1时,它是最有效的。我们可以得出结论,这些损失函数专注于优化的不同方面,通过超参数进行加权可以获得更好的性能。
E.可视化分析
我们在图5中可视化了内部和外部身份特征距离。在所有和室内搜索模式下,证明了DSCNet相对于基线成功降低了类内特征距离的平均值,从而减少了模态差异。同时,类间特征距离的平均值越来越大。实验证明,与基线相比,DSCNet能更好地学习到不同类别之间的身份识别。同时,在图7a中,通过t-SNE可视化了基线的学习身份辨别能力,可以看到同一身份的可见光和红外特征嵌入是分散的。对于DSCNet,由于我们设计的ICSC和IMSC学习策略,将来自细粒度内通道和综合的跨模态视角的语义分布进行对准,从而将每个身份转换为更紧凑的分布。我们还利用热力图进一步说明来自原始图像的学习表示。在图7b和图7c中,与基线相比,从DSCNet提取的热力图更专注于身份相关特征。表明DSCNet具有更强的受光照、人体手势、遮挡等因素影响的抗干扰能力。它可以在检索期间关注人体,并区分身份。为了验证检索结果的改进,我们在图8中进行了可视化展示。标有绿色框的图像是真实的,而标有红色框的图像是错误的。即使对于人类视觉系统来说,查询图像也很难,但从检索结果可以看出,DSCNet能够区分身份,并且正确的结果通常与要检索的图像具有高匹配度。
F与最先进方法进行比较
- 与CM-NAS[10]和AGW[2]的用不同设计的学习方法提取模态不变特征相比,DSCNet实现了模态内部和模态之间的对齐。
- 与基于生成的跨模态方法(如cmGAN[6]、AliGAN[32]、XIV[16]、Hi-CMD[5]、SMCL[39])等相比,DSCNet没有引入中间步骤。
总结
在本文中,我们提出了一个新的VI-ReID框架——DSCNet。它着重于通过增强信道和可见/红外模态之间的语义一致性来消除模态差异。这种方法确保提取的特征更加具有身份相关性和模态不变性。DSCNet探讨了渠道层面的身份关联和歧视。同时,研究还发现通道级语义一致性显著影响跨模态检索任务的性能。值得注意的是,我们的双语义一致性学习结构可以与其他先进的现有VI-ReID方法进一步组装。大量的实验结果验证了DSCNet的优异性能,以及该网络中各组成部分的有效性。在未来,我们有动力在其他人再识别任务中探索更好的通道级语义。