目录
2.3 Asymmetric FC layer structur
原文链接
论文链接:RGB-Infrared Cross-Modality Person Re-Identification
代码链接:code
摘要:
目前大多数Re-ID都是基于 RGB 图像。但是有时RGB 图像并不适用,例如在黑暗的环境或夜间。在许多视觉系统中,红外 (IR) 成像变得必不可少。为此,需要将 RGB 图像与红外图像进行匹配,这些图像是异构的,具有非常不同的视觉特征。
评估了现有流行的跨域模型,包括三种常用的神经网络结构(单流、双流和非对称 FC 层)并分析它们之间的关系。提出了深度零填充,用于训练单流网络,使其自动进化网络中特定领域的节点,以进行跨模态匹配。
1 介绍
由于大多数监控摄像机能够在黑暗中自动从RGB模式切换到IR模式。 分别在白天和夜间在两个室外场景中捕获的RGB图像和红外(IR)图像的示例。每两列中的图像都是同一个人的。由接收不同波长光的设备捕获,同一个人的RGB图像和红外图像看起来非常不同。
第一行的 RGB 图像具有三个包含可见光颜色信息的通道,而第三行的 IR 图像具有一个包含不可见光信息的通道。 因此,它们可以被视为异构数据。 其次,从成像原理来看,RGB和IR图像的波长范围不同。
1.1 数据集:
包括来自 6 个摄像头的 491 个身份的 RGB 和 IR 图像,总共提供 287,628 个 RGB 图像和 15,792 张红外图像。包括两个红外线摄像机和四个RGB摄像机,利用Kinect V1在两个明亮的室内(房间1和房间2)采集相机1和相机2的RGB图像。对于每个人,至少有400个具有不同姿态和视点的连续RGB帧。摄像机3和摄像机6的IR图像在黑暗中由IR摄像机捕获,摄像机3放置在暗环境中的房间2中,而摄像机6放置在具有背景杂波的室外通道中。摄像机4和5是放置在两个室外场景中的RGB监视摄像机。
SYSU-MM01 数据集中有 491 个有效 ID。 我们有一个固定的分割,使用 296 个身份进行训练,99 个身份用于验证,96 个身份用于测试。 在训练过程中,所有相机中训练集中的 296 人的所有图像都可以应用。RGB相机的样品用于gallery set,IR摄像机的样品用于probe set。
1.2 贡献
(1)首次提出了支持RGB-IR交叉模态Re-ID研究的标准基准SYSU - MM01。进行了大量的实验来评估跨模态RGB-IR Re-ID的流行的基线深度学习体系结构。 (2) 分析了三种不同的网络结构(单流结构、双流结构和非对称FC层结构),并分析了它们的有效性。 (3) 在RGB-IRRe-ID任务优化的单流网络中,提出了一种自动演化的域特定结构的深度零填充算法。
1.3 评估
对于RGB相机下的每个身份,我们随机选择一个/十个身份图像,以形成用于单张/多张设置的图库集。至于探针组,则使用所有图像。给定探测图像,通过计算探测图像和图库图像之间的相似性来进行匹配。在不同位置的摄像机之间进行匹配 ,相机2和相机3位于同一位置,因此相机3的探测图像跳过相机2的图库图像。
2 网络结构比较
2.1 One-stream Structure
有单一输入,所有参数在整个网络中共享。
2.2 Two-stream Structure
有两个输入&