SAAI:Visible-Infrared Person Re-Identification via Semantic Alignment and Affinity Inference
基于语义对齐和关联推理的可见-红外人物再识别
时间:2023
期刊:ICCV
代码: https://github.com/xiaoye-hhh/SAAI
摘要:提出了一个语义对齐和关联推理框架(SAAI),该框架旨在将潜在的语义部分特征与可学习的原型对齐,并改进基于关联信息的推理。具体来说,我们首先提出了端到端的语义对齐特征学习(SAFL),它利用像素特征和可学习原型之间的相似性来聚合潜在的语义部分特征。然后,我们设计了一个关联推理模块(AIM)来优化行人关系推理。
实现过程:SAFL首先将特征映射拆分为像素级特征。然后,该方法根据相似度对具有相似内容的像素级特征进行聚合。该方法将提取的潜在语义部分特征连接到全局特征上,以提供局部信息。最后,我们使用双分支BNNeck对两种模态的特征进行归一化,减少模态差异。我们设计了一个零件多样性约束来增加潜在语义零件特征的多样性,而不需要额外的注释。此外,我们引入了中心分离损失来引导网络识别行人关系。
此外,我们还提出了利用关联矩阵中的附加信息来计算距离的AIM方法。该模块首先计算query-gallery关联矩阵。然后,AIM计算gallery-gallery关联矩阵作为参考。最后,AIM使用query-gallery和gallery-gallery关联矩阵对距离测量进行修正。AIM可以利用图像间的关联信息优化推理。
常用VI-ReID推理方法:欧几里得距离量化了欧几里得空间中两点之间的空间距离。余弦距离根据两个向量之间的角度来衡量它们之间的相似性。把每个gallery图像都当作一个独立的身份,忽略了gallery图像之间潜在的关联信息。Jaccard距离只考虑gallery图像中元素的存在与否,而忽略了具体的相似度得分。
pixelwise features像素级特征
网络结构
图解:(1)语义对齐特征学习(SAFL)首先将特征映射Fr/Fv拆分为逐像素特征Tr/Tv。然后,SAFL计算Tr/Tv与可学习原型p之间的相似度。SAFL利用相似度信息聚类潜在语义部分特征。(2)关联推理模块(AIM)计算query-gallery关联矩阵Aqg和gallery-gallery关联矩阵Agg。然后,AIM去除Aqg的噪声值,得到A^qg。此外,AIM去除Agg的噪声值,并用平均值展开得到A~gg。最后,AIM用关联矩阵计算最终距离。
P = [P1, P2,…], Pp]∈ R p × c R^{p×c} Rp×c作为潜在语义部分特征的参考,其中Pi表示第i个可学习原型,p表示可学习原型的总数。每个可学习原型旨在从特征映射中聚类唯一的潜在语义部分特征。
Semantic-Aligned Feature Learning
我们首先将特征映射Fv划分为像素级特征Tv = [T1v, T2v,…], Tnv]∈Rn×c,其中Tiv表示第i个逐像素特征,n = h × w表示逐像素特征的数量。我们根据位置为每个像素特征添加可学习的位置嵌入,以提供空间信息。空间信息可以增强潜在语义部分特征的空间稳定性。随后,本模块计算