On Exploring Pose Estimation as an Auxiliary Learning Task for Visible-Infrared Person Re-identifica

17On Exploring Pose Estimation as an Auxiliary Learning Task for Visible-Infrared Person Re-identification
姿态估计作为一种辅助学习任务在可见-红外人物再识别中的探索
期刊:
分类:中科院二区,CCF-C类
代码地址: https://github.com/yoqim/Pose VIReID
参考:https://zhuanlan.zhihu.com/p/456224628
问题:运行代码出现GCM文件找不到,暂时写到这里

摘要:在端到端中利用姿态估计作为辅助学习任务来辅助VI-ReID识别,通过以互利的方式(共同学习辅助任务(姿态估计)和主任务(人物ReID))联合训练这两个任务,我们的模型学习到更高质量的模态共享和id相关特征。在此基础上,通过层次特征约束(Hierarchical Feature Constraint, HFC)实现全局特征和局部特征学习的无缝同步,HFC使用知识蒸馏策略对全局特征进行监督。我们的算法从人体骨骼关节中提取更多的特征,这些特征不仅与id相关,而且不受模态变化的影响。

功能:1.姿势鼓励作为辅助学习任务来帮助VI-ReID中的ReID任务。学习嵌入id相关信息的细粒度姿态特征,在姿态估计分支上同时施加姿态和ReID约束。
2.为了保证全局特征和局部特征的可分辨性一致性,提出了层次特征约束(HFC),而不是只对局部特征条施加特征约束
3.

思路:1.身体部位标定后,需要缝合不同的身体部位,会产生不真实的变换视觉特征2.利用身体关键点信息,突出区分性的身体区域。3.补充人体外貌特征,以细化与身份相关的特征映射。以上对姿态依赖过少,未能提高准确率。
本篇通过共同学习辅助任务(姿态估计)和主任务(人物ReID)来提取用于身份检索的模态共享和身份相关特征。此外,1.除了id相关约束外,还对姿态估计分支施加了额外的约束,以确保不仅可以精确估计身体骨架点,而且可以在局部和全局级别上充分嵌入id相关信息。2.针对提升水平分割特征约束与全局骨干特征的可判别性一致性,提出来层次特征约束(HFC),它通过知识蒸馏策略将全局特征和局部特征的学习结合起来。

相关参考论文:
多任务学习框架,该框架试图通过嵌入属性信息来提高身份特征的可分辨性----Ling等[22]
利用属性注意图增强身份特征,强调各种属性(如服装颜色、头发、性别等)的类敏感激活区域。----Tay等[23]
使用身体关节图来细化图像特征图,其中强调了人体ReID的区别性身体部位----Zhao等[17]和Miao等[19]
将动态姿态估计器作为单独的分支来导出姿态特征,然后通过双线性池化层与来自另一个分支的外观特征进行聚合----Suh等[18]

网络框架:
在这里插入图片描述
模态特定模块,模态共享模块
由四个部分组成:模态特定模块,模态共享模块,姿态估计分支,ReID分支。ResNet50作为主干特征提取器。
·模态特定模块由Conv Block1,Conv Block2组成,分别采用了ResNet50的浅层卷积块(layer0)和第一层卷积块(layer1)的结构。RGB和IR模态的模态特定模块的参数是分别更新的。
·此后,通过模态共享模块-Conv Block3将两个模态的模态特定特征投影到共享特征空间中,采用的是ResNet50的第二个res-convolution block (layer2)的结构。
数学上,给定RGB图像IRGB和IR图像IIR,模态特定特征Fm和模态共享特征FS计算公式:
在这里插入图片描述
其中[·,·]b表示沿数据维度的特征拼接。ConvB1(∗, θ 1 θ^{1} θ1m)、ConvB2(∗, θ 2 θ^{2} θ2m)和ConvB3(∗, θ 3 θ^{3} θ3)分别表示模态特定模态和模态共享模态的卷积块,其对应参数分别为θ1m、θ2m和θ3。
姿态估计分支
1.人体关键点特征提取:使用卷积层(Conv1)和反卷积层(DConv2)提取高级特征,即FP1和FP1,并将特征图的分辨率恢复到ground-truth body关键点热图的分辨率,定义为:在这里插入图片描述
其中,Conv1(∗, θ 1 θ^{1} θ1P)和DConv2(∗, θ 2 θ^{2} θ2P)分别表示参数为 θ 1 θ^{1} θ1P θ 2 θ^{2} θ2P的3 × 3卷积层。这两层后面都有一个ReLU激活函数,在等式中省略。
细化模块提取精细化的身体关键点特征并预测身体关键点的热图。其中,细化模块由一个 U 形块、三个细化块和两个卷积层组成。U 形块和精化块用于提取精细化特征。在此基础上,卷积层用于热图的估计。从数学上讲,给定高层次特征 F p F^{p} Fp2,细化的关键点特征FR和预测的热图ˆH可以通过以下方式获得:
在这里插入图片描述
其中RMF(∗, θ F θ^{F} θFRM)和RMH(∗, θ H θ^{H} θHRM)分别表示精化模块中参数为 θ F θ^{F} θFRM的精化特征提取阶段和参数为 θ H θ^{H} θHRM的热图估计阶段。
2.为了在ReID分支中利用Pose Estimation分支导出的身体关键点特征,采用卷积层(“Conv3”)和卷积块(“Conv Block6”)来处理特征映射在分辨率和通道数方面的不匹配。
具体来说,首先对改进后的关键点特征FR进行“Conv3”下采样,使得到的 F ′ F^{'} FR具有与Fp1相同的分辨率,记为:
在这里插入图片描述
其中Conv3(∗, θ 3 θ^{3} θ3P)表示步长为2的3 × 3卷积层,参数为 θ 3 θ^{3} θ3P。最重要的是,“Conv Block6”将来自姿态估计分支的特征映射的通道数与来自ReID分支的通道数对齐。
因此,最终的人体关键点特征FP可推导为:
在这里插入图片描述
式中,ConvB6(∗, θ 4 θ^{4} θ4P)表示参数为 θ 4 θ^{4} θ4P的卷积块,由一个步幅为2的3×3卷积层和一个1×1卷积层组成。注意,所有卷积层后面都有一个ReLU激活函数。
3.人体关键点特征集成:为了在ReID分支输出的特征中突出显示车身关键点区域,利用最终关键点特征FP生成车身关键点mask M,即
在这里插入图片描述
mask的值通过sigmoid函数正则化为[0,1],作为软注意映射,从ReID分支提炼身份特征。
ReID分支
1.全局级特征提取:除了姿态估计分支有助于模态共享特征提取外,ReID分支用于提取id相关特征。从图2可以看出,ReID分支主要由2个卷积块(“Conv Block4 ~ 5”)组成。继前人的研究[2]、[12]、[31]之后,“Conv Block4”、“Conv Block5”分别沿用了ResNet50[33]的第三和第四个res-convolution block (layer3、layer4)的结构。在数学上,身份特征Fid2是通过公式在这里插入图片描述其中,ConvB4(∗, θ 1 θ^{1} θ1ID)和ConvB5(∗, θ 2 θ^{2} θ2ID)分别表示参数为 θ 1 θ^{1} θ1ID θ 2 θ^{2} θ2ID的卷积块。

然后,通过执行逐元积运算·,由姿态估计分支导出的身体关键点掩码M来细化身份特征Fid2。得到最终的身份特征FID,即
在这里插入图片描述
2.局部特征划分:由于零件特征可以为身份识别提供细粒度的信息,因此所提出的框架利用PCB模型[20]进行局部特征学习。根据[12],[13],首先将ReID分支的卷积特征FID划分为P个水平条纹,然后通过Global Average Pooling (GAP)将其转换为特征向量,然后发送到相应的PCB模型,其表达式为:
在这里插入图片描述
式中P art(·),GAP(·)分别表示水平分区和GAP。
从图2可以看出,PCB模型由一个全连接(FC)层和一个分类器组成。前者将特征向量的维数从2048-dim降至512-dim,后者用于身份预测。
对于第i个PCB模型,细粒度零件特征fIDi
在这里插入图片描述
其中 FCIDi(∗, θ i θ^{i} θifcid) 表示具有参数 θ i f θ^{i}f θifcid 的全连接层。P是 PCB 模型的数量,本文中经验性地设定为 6。
对来自姿态估计分支的卷积特征FP进行局部特征学习,得到相应的细粒度部分特征fPi。在推理过程中,细粒度的部件特征被连接起来进行身份检索,即:
在这里插入图片描述
其中[·,····,·]c表示沿通道维度的特征拼接。
分层约束特征
为了确保全局特征和局部特征的一致性判别性,提出了层次特征约束(Hierarchical Feature Constraint, HFC),以连接全局特征和局部特征的学习。HFC 的结构如图 3 所示,其灵感来源于知识蒸馏(Knowledge Distillation, KD)中的师生学习理念 [35]。可以看出,HFC 并没有引入一个额外的预训练教师模型,而是利用卷积特征的预测作为“软目标”,为“学生”模型(即姿态估计分支和重识别分支的 PCB 模型)提供额外的监督。

具体而言,姿态估计分支和重识别分支的卷积特征首先在通道维度上进行拼接,然后通过全局平均池化(Global Average Pooling)转换为特征向量。接着,使用一个 PCB 模型(“PCB T”)获得“软目标”,即 PT = {piT}Ni=1。N 表示训练图像的数量。正式地,对于一张具有身份标签 yi 的图像 Ii,piT 可以通过以下方式获得
在这里插入图片描述
式中ykT = wTtkf iT, f iT为“PCB T”中FC层输出的第i张图像的细粒度特征。wtk表示“PCB T”中第k个标识的分类器参数。Nid是整个训练集中恒等式的个数。对于Pose Estimation分支和ReID分支的第j个PCB模型,可以用同样的方法分别计算相应的概率预测值PPj = {piPj}Ni=1和PIDj = {piIDj}Ni=1。
为了用全局特征学习来监督局部特征学习,使用KD损失LKD来减小两个预测分布PT和PID§j之间的距离。给定M张图像的小批量,LKD公式为:
在这里插入图片描述
其中KL(p, q)测量分布p和分布q之间的Kullback-Leibler散度。p表示每个分支的PCB模型数。
损失函数
分批抽样方法继[12]、[13]之后,在训练过程中采用在线分批抽样策略。具体来说,在每次迭代中随机选择D个恒等式。

对于每个标识,K个RGB图像和K个IR图像被随机选择来构建小批量。因此,批大小M = 2 * DK。在本文中,我们在训练时设置D = 8, K = 4, M = 64。

为了鼓励姿态估计分支学习模态共享特征,引入姿态估计损失Lpose来最小化地真体关键点热图与预测热图之间的像素欧式距离。在本文中,ground-truth热图是通过姿态估计模型[34]得到的,该模型在LIP数据集[36]上进行了预训练。正式地,跨小批的Lpose定义为:
在这里插入图片描述
其中Hi(x, y), Hi(x, y)分别表示第i个ground truth和预测的body关键点热图在(x, y)位置的像素值。
ID loss
为了提取id相关特征,对姿态估计分支和ReID分支的每个PCB模型进行身份损失。给定姿态估计分支和ReID分支的第j个PCB模型分别给出的概率预测PPj和PIDj,则小批量中的身份损失Lid表示为:
在这里插入图片描述
式中,P为各支路PCB型号数。
异中心三重态损失
为了减少模态内和模态间的差异,异质中心三联体(HC-tri)损失[32]也被用于局部特征学习。与身份损耗类似,hc -三损耗也在每个PCB模型上执行。
具体来说,对于每个PCB模型,细粒度部件的中心特征是给定小批量中的第i个标识RGB模态cRGBi,j和IR模态cIRi,j可计算如下:
在这里插入图片描述
其中f RGB(IR) i,j表示给定小批量中第j张RGB(IR)图像的细粒度部分特征。因此,姿态估计分支的第z个PCB模型的HCtri损耗计算如下:
在这里插入图片描述
式中[x]+ = max(x, 0), ρ为边际值,经验设置为0.3。ReID支路的第z - PCB模型,即LIDzhctri的hc -三损耗可以用同样的方法计算。
因此,给定小批的总hc - 3损失可推导如下:
在这里插入图片描述
训练的总体目标定义为:
在这里插入图片描述
其中,β、λ和γ为平衡每一损失项的加权因子,本文经验设置其分别为0.1、5、1。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值