行人再辨识技术
寒假我就开始读周志华老师的《机器学习》。对于AI领域中,机器学习在CV和CG中的交叉研究很感兴趣。其中,寒假写了一点关于行人再辨识技术(person re-identification)的东西。
行人再辨识技术(person re-identification)是目前视频监控的热门研究方向,综合运用计算机视觉,机器学习以及模式识别技术于监控系统中。计算机视觉领域的学者们形象地将针对特定行人的监控视频检索问题称为行人重识别,通常运用于刑侦工作,图像检索等方向。
该技术的目的在于判断某个摄像头中的某个行人是否曾经出现在其他的摄像头中,即需要将某个行人特征与其他行人特征进行对比,判断是否属于同一个行人。目前行人再辨识所要做的就是先对图像进行特征提取,然后接下来做的是判断某个测试图片的特征与训练集中的哪个图片最接近,因此,在实际的监控视频应用中,应该是先进行行人检测,把视频或图片中的行人筛选出来,输出类似不同摄像头中监测结果的结果,然后,再使用行人再辨识技术识别行人。但是也存在监控视频分辨率低,不同摄像头之间的光照角度变化,遮挡等问题带来的错误率较高问题。
目前,行人再辨识领域研究工作主要分为大致两类:1.研究行人对象的特征表示方法,提取更加具有鲁棒性的鉴别特征对行人进行表示;2.使用距离度量学习方法,通过学习一个有判别力的距离度量函数,使得同一个人的图像间距离小于不同行人图像间的距离。关于传统的两种方法,我看了一点近几年的相关论文。
(1) 基于特征表示方法
1).“Multiple-shot person re-idetification by chromatic andepitomicanalyses”,Pattern Recognition Letters,Vol.33,PP.898-903,2012.本文结合行人的全局和局部外貌特征进行重识别,首先根据行人在单摄像头下的连续运动提取多个关键帧图像,并用多帧图像的累积 HSV 颜色直方图表示全局特征;其次,在把人身体分割成上、下半身并去除头部区域后,提取各上、下半身多帧图像中频繁出现的块信息表示局部特征;最后加权融合全局和局部特征进行行人重识别。
2). “Custom pictorial structures for re-identification”, BMVC,2011.本文提出类似的方法,将绘画结构应用于行人重识别。用一个自适应的身体外形结构来表示行人像,包括头、胸、大腿和小腿,然后提取每个部分的颜色特征进行精确匹配。
3). “Person re-identification by symmetry-drivenaccumulation of local features”, CVPR, 2010. 为了减少视角变化导致的外貌变化,本文提出通过基于人身体对称性的特征提取方法。首先通过一个预处理过程在人身体上划分头、躯干、腿部和左右对称中轴,然后提取除了头部以外的各区域的多种特征,包括累积颜色特征和纹理特征。并基于对称中轴对特征进行加权,越靠近中轴权值越高。
(2)基于距离度量学习的方法
上述基于特征的方法都是使用标准距离(如曼哈顿距离、欧氏距离和巴氏距离等)进行相似性度量。然而同一身份行人在跨越多个无重叠区摄像头时,不同外貌特征受视角、光照等因素的影响不同。标准的距离度量方法平等的对待每一种特征,而不会摒弃那些独立使用时效果很差的特征。因此,研究者尝试通过距离学习的方法,获得一个新的距离度量空间,使得同一行人不同图像的距离小于不同人间的距离。距离学习方法一般在 Mahalanobis 距离的基础上进行,通过学习一个投影矩阵,使得在投影空间中同类样本之间的距离较小,而不同类样本之间的距离较大。
1).“行人再辨识关键技术”北京邮电大学硕士毕业论文,姚波怀,2015年
主要亮点在于改进行人再辨识系统的Bagging的度量学习方法,提出包含迹范数正则化项的大间隔最近邻法。
2)“PersonRe-identification by Probabilistic Relative Distance Comparison”, CVPR, 2011. 本文提出概率相对距离比较(probabilisticrelative distance comparison PRDC)的方法,在学习距离度量函数时考虑相对约束,与之前的同类距离尽可能小,不同类距离尽可能大的要求不同,其要求同类的距离小于不同类之间的距离。对每一个样本,选择一个同类样本和不同类样本形成 3 元组,在训练过程通过最小化不同类样本距离减去同类样本距离的和,得到满足约束的距离度量矩阵。
3)“Pedestrianrecognition with a learned metric”, ACCV, 2011. 本文对 LMNN进行改进提出 LMNN-R方法,其用所有样本点的平均近邻边界来代替 LMNN 中不同样本点所采用的各自近邻边界,取得了比 LMNN 方法更强的约束效果。
4)“Distance metric learning for large margin nearest neighborclassification”, Journal of Machine LearningResearch, vol. 10, pp. 207–244, 2009. 本文提出最大近邻分类间隔(large marginnearest neighbor classification, LMNN)的算法,其思想类似于支持向量机,即希望寻求一个分类超平面,使得该超平面与最靠近点的距离尽可能大。同样,LMNN 希望通过投影后,数据的邻域内的同类点向内部紧缩,不同类点向外扩张,并且之间的间隔尽可能大。
而以上两种方法都是先采用行人检测框出行人,再将框出的行人图像作为分类的输入图像,而在CUHK《End-to-End Deep Learning for Person Search》这篇论文中用了fasterRCNN的框架,提出如果检测框框理性的话,对识别是有直接帮助的,他们直接将行人检测和再识别整合到一个卷积神经网络中,减少了行人检测框错人的误差,实验准确率达到了60%以上。相关程序我在Github上查到:https://github.com/ShuangLI59/person_search
在这次的收集论文品读过程中,我也查到了很多相关文献和源码,如下:
LiangZheng:采用detector和各种recogniser的组合,讨论新的行人检测框和重识别关系,链接:https:// arxiv.org/abs/1604.02531
Liangzheng: past,present and future,链接:https://arxiv.org/abs/1610.02984
LOMO:Person Re-identification by Local Maximal Occurrence Representation and Metric Learning。http://www.cbsr.ia.ac.cn/users/scliao/projects/lomo_xqda/index.html
CNN+Pose: erichuang0771/PoseBox-Reid: A two-stream Re-id CNN networkBaseline:https://github.com/erichuang0771/PoseBox-Reid
Baseline: zhunzhong07/IDE-baseline-Market-1501: ID-discriminative Embedding (IDE) for Person Re-identification
https://github.com/zhunzhong07/IDE-baseline-Market-1501
等等。