步骤1:原始数据的收集:从监控摄像获取原始音频数据是实际视频调查的主要需求。这些摄像头通常被安装在变化环境中的不同的位置。很可能,这些原始数据包含了大量的复杂的并且带有噪音的杂乱背景。
步骤2:边界框的生成:从原始数据中抽取包括人像图片的边界框。通常手动剪裁大规模应用程序中的所有人物图像是不可能的。边界框通常可以通过人物检测或者跟踪算法来获取。
步骤3:训练数据标注:标注跨设备的标签。由于较大的跨摄像头的变化,鉴别性ReID模型学习通常离不开数据的标注。在存在domain shift的情况下,我们需要对每一个新场景中的训练数据进行标注。
步骤4:模型训练:用当前标注的行人图片和视频训练一个判别式的鲁棒的ReID模型。这一步是开发一个ReID系统的核心并且它也是在文献里大多数研究的典范。广泛的模型被开发出来处理各种各样的挑战,主要集中在表征学习、度量学习,或者他们的结合。
步骤5:行人检索:测试阶段要做行人检索。给定一个感兴趣的行人(query)和一个图像库,我们用当前已经学习好的ReID模型来抽取特征表示,一个检索命中列表可以通过计算query到gallery的相似度来获得。一些方法也调查了命中优化来提高检索性能。
参考文献:
Deep Learning for Person Re-identification A Survey and Outlook