MAR:Unsupervised Person Re-identification by Soft Multilabel Learning阅读总结

介绍了一种基于软多标签学习的无监督行人再识别方法,通过与参考图像的比较为未标记图像分配软多标签,结合硬负样本挖掘和跨视野一致性约束,提升特征嵌入的鉴别力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Unsupervised Person Re-identification by Soft Multilabel Learning

作者:Hong-Xing Yu, Wei-Shi Zheng等人 2019年CVPR oral
源码:https://github.com/KovenYu/MAR

1. Motivation

无监督reid不适合打one-hot硬标签,于是作者提出一种软多标签学习策略。其思想是将每一张unlabel行人图像通过和已知label的参考(辅助)图像比较和表示,从而获取unlabel图像的软多标签。打好了标签后其实就是“有监督学习”了,只不过作者额外提出软多标签指导的硬负样本挖掘,其通过unlabel目标域pairs的视觉特征与软多标签的一致性来为unlabel目标域pairs学习鉴别性特征嵌入。而由于reid考虑的是跨相机,作者还提出跨视野软多标签一致性学习。而前面提到的辅助其实是引入了参考代理学习源域每个行人的特征表示(辅助)。模型性能也很好,M和D分别刷到67.7%和67.1%的rank@1精度,相当高(但是用了最大的MSMT17作为辅助数据集)。

其软标签的打法如下图:
**加粗样式**

2. 方法

2.1 问题定义

在这里插入图片描述

2.2 软多标签学习

这一部分目标是为了学习打标签的函数,其将目标域图像和代理行人比较,看图像和哪个代理行人更相似,打上软标签(这种打标签可能存在错误,因此希望打标签的网络不要那么自信,因此软标签是比硬标签更合理的一种策略),如图1所示,软标签学习函数可以表示为:
在这里插入图片描述
其中y就是图像x得到的软多标签,而a是参考代理行人,形式上就是简单的softamx,只不过对于无标签样本学习到的特征f(x)和参考代理的乘积作为输入,也就是利用了两者的余弦相似度(本来这一模块的目的就是将无标签和有标签的行人比较,归类为最相似的那一类)。
围绕这一核心,作者还提出了在后面的reid特征提取过程中常见的操作:硬负样本挖掘和跨视野一致性。只不过平时进行这两个操作时用的是可以信任的真实标签,这里是前端学习到的软标签。最后,在软标签学习过程中提到了代理(参考)行人,它们是从辅助数据集中学习到的,将一个人的所有图像学习成能代表这个人的行人特征(有监督reid就是在做这个,普通softmax分类网络就能解决,最后作者用的也确实就是这个),因此本文思想其实很简单,无论打标签,样本挖掘,跨视野和参考代理学习都是常用的操作,而性能的提升也主要来自于MSMT17作为辅助数据集的优势。网络的整体框架为:
在这里插入图片描述
下面对各个组件一一展开。

2.3 软多标签指导的硬负样本挖掘

硬负样本挖掘本关键取决于制定的挖掘策略,如reid中常用的triplet挖掘,triplet-hard挖掘等。作者为了制定挖掘策略,首先给出了一个假设:
在这里插入图片描述
即:两图像的特征相似度(余弦)比较大就认为这两张图像是相似对。而在满足相似对的情况下,如果两图像的相似比较特性也大,就认为它们是正对,否则就认为它们是硬负对。
而提到的相似比较特性则是通过下面的软多标签一致性来度量:在这里插入图片描述
上式是基于L1距离的,两者的软标签越一致(即正对可能性越大),则上式结果越大;反之软标签分布越不一致,则负对可能性越大。具体原因可以从中间项可以看出,其定义为两图像的软标签的对应各项最小值之和,
在这里插入图片描述
表示代理 k 给出样本i,j的概率,这两个概率越接近则表示两样本的概率分布越一致;而给出的值越大,就表示越认为这个样本越接近 k 这个类。举个例子:例子1,(0.5,0.3,0.2)和(0.3,0.4,0.3)的上式计算结果为min(0.5,0.3)+min(0.3,0.4)+min(0.2,0.3) = 0.3+0.3+0.2=0.8。而例子2,(0.5,0.3,0.2)和(0.6,0.2,0.0.2)的上式计算结果0.5+0.2+0.2=0.9(用式2最后一项计算结果也一样)。直接从标签分布我们肯定更愿意相信例子1更可能样本1属于类1而样本2属于类2,而例子2更可能两个样本都属于类1,即例1更可能是负对而例2更可能是正对,而软多标签一致性则是指出这不一定,因为有的硬负样本的相似度其实很大,关键看阈值怎么选择,如果选择阈值为0.75,那两个例子都是正对;选择为0.85,则和直接从标签分布得到的结论一致;选择0.95则两个例子都是负对。作者的做法是,将阈值定个在某个值让硬负样本对占总样本对的p%。

有了式(2),加上定理1和余弦相似度(度量两样本的特征相似度,这个特征就看网络质量了)就可以得到正对和硬负对的定义规则:在这里插入图片描述
其中阈值S和阈值T的设置都是统一规则。S是将M个pairs的余弦相似度降序排列后第pM个相似度的值;T是将M个pairs的相对比较特征降序排列后排在pM位的值。其中p是超参数,表示硬样本挖掘率。而M=Nu*(Nu-1)/2,是目标域Nu个样本两两组合的pairs数。
根据硬样本挖掘的结果,就可以利用软多标签指导鉴别性特征学习(指导学习最终的行人描述符),soft Multi-label guided Discriminative Learning损失构建如下(注意是在辅助数据集上挖):
在这里插入图片描述
对于这种打伪标签的结果,使用对比损失(一对图像是正对还是负对)比直接用打的伪标签的分类网络更合理,因为这个标签不能过分信赖成ID,像对比损失那样信任是更合理的,这一做法在【Image-Image Domain Adaptation with Preserved Self-Similarity and Domain-Dissimilarity for Person Re-identification】中出现过。
在这里插入图片描述
该过程图示如下:
在这里插入图片描述

2.4 软多标签学习的跨视野一致性约束

其实就是增加一个图像跨视野一致性的约束,因为reid是跨视野的。我们的目的就是让不同相机下图像的软标签分布尽量一致(给不同相机下的同一个人的图像打的软标签都差不多),直接贴出公式(Cross-view consistent soft Multi-lebel Learnig)如下:在这里插入图片描述
其中,log软多标签指的是对软多标签取log操作。最小化上式即可,且计算代价cheap。

2.5 参考代理学习----辅助数据集上

辅助数据集中的每个人对应一个参考代理,代表辅助数据集中一个行人的所有图像的表示。直接分类网络学习+交叉熵损失做有监督就ok了,因此代理学习(Agent Learning)损失函数为:
在这里插入图片描述
这和
在这里插入图片描述
是类似的。这里我们是要最小化L_AL损失来学习好的参考代理表示a,其中的f(z)则是整个过程中都在学习的(特征提取网络),而式1则是利用学习好的a和特征提取网络(整个网络去掉损失层和后几层部分)打伪标签。
以上的训练都是在辅助数据集上,是为了得到一个好的参考代理空间表示。
我们还需要在目标域上继续训练以消除域偏移现象,提出基于参考代理的联合特征嵌入学习(联合指的是源域数据和目标域数据都用上了)Reference agent-based Joint embeedding learning损失为:在这里插入图片描述
在这里插入图片描述

2.6 模型的训练和测试

在这里插入图片描述

3. 实验

注:MSMT17做辅助数据集(仅这个就能带来很大的无监督性能提升),Market和Duke做目标域。

3.1. 实验细节

  • bs=368,一半来自辅助数据集,一半来自目标域
  • 由于作者使用了归一化norm以方便全篇余弦相似度的计算,即
    在这里插入图片描述
    因此优化L_AL时会出现收敛问题。因此先在不进行归一化norm的情况下仅使用L_AL预训练网络,让网络具有一定的鉴别能力并能找准参考代理的学习方向。在此基础上,我们实施约束条件,开始模型学习,并将约束内积乘以预训练的平均内积值。
  • 一些参数
    在这里插入图片描述
  • 四卡并行 TITAN X GPU 训练时长10h,主要可能是MSMT辅助数据集较大的原因,而今年reid普遍训练时长增加,不是一个好的方向

3.2.和SOTA比较

其中第一栏是手工特征方法,第二栏是伪标签方法,第三栏是基于UDA的方法。在这里插入图片描述
在这里插入图片描述
精度刷的很高。
以往由于Duke更难,因此在Duke上性能往往低于Market,但这篇文章两者的性能差不多,而PAUL(该组另一篇2019CVPR)则是Duke上更高,两者共同点是:都是由了MSMT做辅助数据集。而MSMT中的图像和Duke很像,尤其是上衣(都是外国人,应该也都是冬天,而Market是国人,夏季),而PAUL在Duke上性能更高的优势在于其是类似于PCB的分patch的,而patch+global在有监督中早已被证明比直接global特征更好(作者在PAUL中首次在无监督reid中用了patch并证明了patch的效果更好)。
PAUL传送门:PAUL

3.3 消融实验

在这里插入图片描述

3.4 Visual results and insight

在这里插入图片描述
在这里插入图片描述

3.5. 超参数选择

在这里插入图片描述

  • 辅助数据集中参考代理行人数是目标域行人数的两倍就能取得很好的效果
  • 在下面的范围内性能都很稳定
    在这里插入图片描述
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值