行人再识别的发展历史

本文翻译自相关论文,介绍行人再识别发展史。其研究源于多目视觉跟踪,后逐渐独立。文中阐述了带有明确“重识别”功能的多目视觉跟踪、基于图像和视频的行人再识别、基于深度学习的再识别以及基于图像的端到端的再识别等重要研究方向。

翻译自Person Re-identification:Past, Present and Future,Liang Zheng, Yi Yang, and Alexander G. Hauptmann

行人再识别(Person re-ID)研究源于多目视觉跟踪(multi-camtracking[1],一些重要的re-ID研究方向也从此发展起来,在本文中,我们会简单地介绍行人再识别发展史中的里程碑。

多目视觉跟踪

在早些年里,行人再识别并没有真正的发展起来,而是紧紧地与多目视觉跟踪联系在一起,多目视觉跟踪是在相邻的两个摄像头之间利用外观模型进行几何校正。在1997年,Huang和Russell[2]提出了一个贝叶斯公式,在其他摄像机视图中观察到证据的前提下,可以预测一台摄像机中物体外观的后验概率。外观模型包括颜色、车辆长度、高度、宽度、速度和观察时间等多个时空特征。

带有明确“重识别”功能的多目视觉跟踪

据我们所知,在2005年由来自阿姆斯特丹大学的Wojciech Zajdel, Zoran Zivkovic和Ben J. A. Kr¨ose [3]首次在多目视觉跟踪研究提出了“行人重识别”这一术语。在一篇名为“Keeping track of humans: Have I seen this person before?”的论文中,Zajedel等人致力于“当一个人从视野中消失后又重新出现时,能够对其进行重新识别”。在他们的方法中,假设每个人都有一个独特的潜在标签,并定义一个动态贝叶斯网络来编码标签和轨迹特征(颜色和时空线索)之间的概率关系。进入人员的身份根据由近似贝叶斯推理算法计算得出的后验标签分布来确定。

行人再识别独立,基于图像的再识别

在2006年,Gheissari等人[4]先采用时空分割算法对图片进行分割,然后使用人的视觉线索进行前景检测。基于颜色和突出边缘直方图的视觉匹配由关节行人模型或Hessian af-fine interest point operator(真不知道怎么翻译了。。。)完成。实验是在一个数据集上进行的,其中44人被3个摄像头捕获,视角重叠适中。需要注意的是,尽管Gheissari等人设计了一种基于视频帧(也就是图像)的时空分割方法,但无论是特征设计还是匹配过程都不使用视频信息,因此我们将其[11]划分为基于图像的再识别。这项工作标志着行人再识别与多目视觉跟踪的分离,并作为一项独立的计算机视觉任务开始。

基于视频的行人再识别

最开始,为了在视频中进行跟踪,大多数行人再识别研究的工作重点是图像匹配。在2010年,提出了两项多镜头re-ID的工作[5][6],其中帧都是随机选择的。颜色是两项工作中常用的特征,此外,Farenzena等人还采用了分割模型来检测前景。对于距离测量,两项工作都计算了两个图像集中边界框之间的最小距离,Bazzani等人进一步使用巴式距离作为颜色和通用的典型特征。结果表明,与仅仅用单帧(即一张图片)相比,对每个人都使用多帧(多张连续照片)可以有效地提高性能,并且随着所选帧数的增加,re-ID的精确度将达到饱和状态。

基于深度学习的再识别

2014年,Yi[7]和Li[8]等人都使用了siamese神经网络[9]来确定一对输入图像是否属于同一ID,这使得深度学习在图像分类中的成功[10]推广到了re-ID。选择siamese模式的原因可能是每个身份的训练样本数量有限(通常是两个)。除了参数设置中的一些变化外,主要的区别在于[7]在网络中添加了一个额外的成本函数,而[8]使用了更合理的主体划分。实验数据集在[7][8]中没有重叠,因此这两种方法不能直接比较。虽然在小数据集上它的性能还不稳定,但深度学习方法已经成为re-ID中一个主流的选择。

基于图像的端到端的再识别

虽然大多数研究工作在实验中使用手工裁剪的图像(实在不知道boxes怎么翻译。。盒子??所以翻译成图像了)或固定探测器制作的图像,但有必要研究行人探测器对re-ID准确度的影响。2014年,Xu等人[11]通过结合检测(共性)和re-ID(唯一性)得分来解决这个问题。结果表明,在校园数据集中,联合考虑检测和re-ID可信度,比单独使用它们更能提高人的检索精度。

[1]X. Wang, “Intelligent multi-camera video surveillance: A review,”Pattern recognition letters, vol. 34, no. 1, pp. 3–19, 2013.

[2]T. Huang and S. Russell, “Object identification in a bayesian context,” in IJCAI, vol. 97, 1997, pp. 1276–1282.

[3]Wojciech Zajdel, Zoran Zivkovic和Ben J. A. Kr¨ose[W. Zajdel, Z. Zivkovic, and B. Krose, “Keeping track of humans:Have i seen this person before?” in Proceedings of the 2005 IEEE International Conference on Robotics and Automation. IEEE, 2005,pp. 2081–2086.

[4]N. Gheissari, T. B. Sebastian, and R. Hartley, “Person reidentification using spatiotemporal appearance,” in 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR’06), vol. 2. IEEE, 2006, pp. 1528–1535.

[5]L. Bazzani, M. Cristani, A. Perina, M. Farenzena, and V. Murino,“Multiple-shot person re-identification by hpe signature,” in
Pattern Recognition (ICPR), 2010 20th International Conference on.IEEE, 2010, pp. 1413–1416.

[6]M. Farenzena, L. Bazzani, A. Perina, V. Murino, and M. Cristani,“Person re-identification by symmetry-driven accumulation of local features,” in Computer Vision and Pattern Recognition (CVPR),2010 IEEE Conference on. IEEE, 2010, pp. 2360–2367.

[7]D. Yi, Z. Lei, S. Liao, S. Z. Li et al., “Deep metric learning for person re-identification.” in ICPR, vol. 2014, 2014, pp. 34–39.

[8]W. Li, R. Zhao, T. Xiao, and X. Wang, “Deepreid: Deep filter pairing neural network for person re-identification,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014, pp. 152–159.

[9]J. Bromley, J. W. Bentz, L. Bottou, I. Guyon, Y. LeCun, C. Moore, E. S¨ ackinger, and R. Shah, “Signature verification using a siamese time delay neural network,” International Journal of Pattern Recognition and Artificial Intelligence, vol. 7, no. 04, pp. 669–688, 1993.

[10]A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” in Advances in
Neural Information Processing Systems, 2012, pp. 1097–1105.

[11]Y. Xu, B. Ma, R. Huang, and L. Lin, “Person search in a scene by jointly modeling people commonness and person uniqueness,” in Proceedings of the 22nd ACM international conference on Multimedia. ACM, 2014, pp. 937–940.

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值