序言
该文研究的目的:
旨在研究真实场景中低分辨率行人相互匹配的问题。
该文做的工作主要有两个:
- 低分辨率行人重识别数据集
- 低分辨率行人重识别模型
低分辨率行人重识别数据集
摄像头:3对,共6个(1个枪型和1个球型为一对),枪型(固定方向和焦距,获取低分辨率图像),球型(可根据目标行人位置,调整焦距和视线方向,获取高分辨率图像)
拍摄地点:3个交叉路口
拍摄行人数量:200个行人有身份标签,320个行人没有身份标签。每个行人至少被2台摄像机捕获到。
共包括10424幅图片,每个行人平均有17幅训练图像。枪球摄像机拍摄的是多帧图像,图像里面不仅包含了目标行人还有其他建筑物、道路和车辆等非目标对象。每个身份类别的行人在每个摄像头下都具有多幅图像,这将有利于跨摄像头搜索并匹配同身份类别的行人。
图像标注工具:ImageMagick,将目标行人从整幅图像中裁剪出来。由于每幅图像中目标行人的大小不一,裁剪出来的图像尺寸大小也不一样。为了训练方便,在训练过程中将所有高分辨率图像的尺寸调整为192 × 96像素,低分辨率图像尺寸调整为64 × 32像素。
本数据集与现主流数据集的不同:1)是路人,不再是校园或商场。2)因为基于枪球摄像机的行人数据集是从视频流中捕获并裁剪得到,所以每幅行人图像具有时序信息,可以捕捉到随时间变化的行人动态。这种具有时序特征的行人图像还适用于研究视频行人重识别。3)本文构建的数据集还包括一些身份未标明的行人,可以用于研究半监督或者无监督领域的行人重识别算法,同时也可以模拟现实世界中身份识别系统的工作模式。即给定一幅未知身份的人员图像,身份识别系统将会在监控画面或者数据库中自动检测到该同类人员。
数据集的最大特点:每个行人具有低分辨率和高分辨率图像(其他数据集低分和高分两个图像是独立拍摄获取的),因此可以通过超分模型学习低分辨率图像和高分辨率图像之间的映射关系。
低分辨率行人重识别模型
低分辨率行人重识别基准模型整体框架由两部分组成包括:超分模块、重识别模块
一个有效的超分模型能够从降级的低分辨率图像中生成细节丰富的高分辨率图像,缓解Probe图像和Gallery图像之间的匹配问题。
首先看一下模型总体框架
超分模块由生成器网络、图像判别器、梯度判别器组成
生成器网络:采用改进的SwinIR模型,改进共两点,包括1)网络输入同时包含了低分辨率图像的梯度信息。输入的梯度信息可以使网络学习到图像的结构特征和高频信息,同时结合梯度判别器的使用,能有效地解决像素误对齐的问题。2)为了减少上采样操作所带来的计算量,网络结构的上采样层采用最近邻插值算法增大图像分辨率。
- 低分辨率图像xLR通过梯度函数M(⋅)得到梯度图xgradLR
- xLR和xgradLR分别输入到一个卷积核大小为3×3的卷积层提取浅层特征
- 将两者的浅层特征在通道维度上进行连接操作,并将连接后的特征图作为后续模块的输入
- 将拼接特征输入到6个RSTB模块和1个3×3卷积层提取深层特征
- 将拼接特征和深层特征相加得到融合特征,并将融合特征输入到上采样层得到最终的高质量图像
图像判别器:区分生成的图像和高分辨率图像,使得两图像之间更相似
梯度判别器:构建的数据集是通过人工裁剪视频帧中的行人得到的,因此高分辨率行人和低分辨率行人之间可能存在像素误对齐的问题。为此,本文利用梯度判别器Dg来解决像素误对齐问题。梯度判别器Dg鉴别高分辨率行人梯度图和超分行人梯度图的真假,可以通过对抗学习监督超分图像的生成,保留完整的细节和结构信息。
重识别模块由特征提取器和特征判别器组成
特征提取器:在imageNet上预训练的RestNet50,损失函数为
特征判别器:在特征空间上区分超分图像特征和高分辨率图像特征,使这两个特征的分布相似。相对而言,在特征空间上超分相似约束能极大改善行人匹配的性能。研究表明,如果使用二分类损失函数优化行人特征判别器Df和特征生成器(由生成器G和特征提取器F组成),那么由于特征生成器网络过深可能会造成训练不稳定,因此本文行人特征判别器的最后一层移除了sigmoid,采用基于Wasserstein GAN(Arjovsky 等,2017)的判别器损失函数,具体为
式中,fHR和fSR分别表示高分辨率和超分行人图像的特征。
总体流程:
{低分辨率图像、高分辨率图像}
低分辨率图像经过函数M(`)得到梯度图
低分辨率图像和得到的梯度图同时进入到超分生成器得到超分图像
此时分两块
在超分模块中:得到的超分图像和高分辨率图像进入图像判别器进行区分,超分图像梯度图和超分图像梯度图再进入梯度判别器判别梯度图的真假,就是哪个才是真实场景中的图,根据相似性的判别程度来优化更新网络
在重识别模块中:得到的超分图像和高分辨率图像进入特征提取器同时提前两个图像的特征,在特征判别器来区分两个图像的特征,根据区分程度来进行网络调优,我的理解是低分辨率图像生成超分图像,超分图像和高分辨率图像的特征提取调优判断两个是否是同一个人。