跨模态行人重识别:RGB-Infrared Cross-Modality Person Re-Identification 学习记录笔记

目录

原文链接

 摘要:

1 介绍

1.1 数据集:

1.2 贡献

1.3 评估

2 网络结构比较

2.1 One-stream Structure

2.2 Two-stream Structure

2.3 Asymmetric FC layer structur

3 网络结构

3.1 单流和双流结构的连接

3.2 单流结构

3.3 备注 

4 深度零填充

4.1 网络输入分析

4.2 RGB-IR深度零填充

5 实验

5.1 模型比较

5.2 模型分析


原文链接

论文链接:RGB-Infrared Cross-Modality Person Re-Identification 

 代码链接:code

 摘要:

        目前大多数Re-ID都是基于 RGB 图像。但是有时RGB 图像并不适用,例如在黑暗的环境或夜间。在许多视觉系统中,红外 (IR) 成像变得必不可少。为此,需要将 RGB 图像与红外图像进行匹配,这些图像是异构的,具有非常不同的视觉特征。

        评估了现有流行的跨域模型,包括三种常用的神经网络结构(单流、双流和非对称 FC 层)并分析它们之间的关系。提出了深度零填充,用于训练单流网络,使其自动进化网络中特定领域的节点,以进行跨模态匹配。

1 介绍

        由于大多数监控摄像机能够在黑暗中自动从RGB模式切换到IR模式。 分别在白天和夜间在两个室外场景中捕获的RGB图像和红外(IR)图像的示例。每两列中的图像都是同一个人的。由接收不同波长光的设备捕获,同一个人的RGB图像和红外图像看起来非常不同。

         第一行的 RGB 图像具有三个包含可见光颜色信息的通道,而第三行的 IR 图像具有一个包含不可见光信息的通道。 因此,它们可以被视为异构数据。 其次,从成像原理来看,RGB和IR图像的波长范围不同。

1.1 数据集:

        包括来自 6 个摄像头的 491 个身份的 RGB 和 IR 图像,总共提供 287,628 个 RGB 图像和 15,792 张红外图像。包括两个红外线摄像机和四个RGB摄像机,利用Kinect V1在两个明亮的室内(房间1和房间2)采集相机1和相机2的RGB图像。对于每个人,至少有400个具有不同姿态和视点的连续RGB帧。摄像机3和摄像机6的IR图像在黑暗中由IR摄像机捕获,摄像机3放置在暗环境中的房间2中,而摄像机6放置在具有背景杂波的室外通道中。摄像机4和5是放置在两个室外场景中的RGB监视摄像机。

        SYSU-MM01 数据集中有 491 个有效 ID。 我们有一个固定的分割,使用 296 个身份进行训练,99 个身份用于验证,96 个身份用于测试。 在训练过程中,所有相机中训练集中的 296 人的所有图像都可以应用。RGB相机的样品用于gallery set,IR摄像机的样品用于probe set。

1.2 贡献

        (1)首次提出了支持RGB-IR交叉模态Re-ID研究的标准基准SYSU - MM01。进行了大量的实验来评估跨模态RGB-IR Re-ID的流行的基线深度学习体系结构。 (2) 分析了三种不同的网络结构(单流结构、双流结构和非对称FC层结构),并分析了它们的有效性。 (3) 在RGB-IRRe-ID任务优化的单流网络中,提出了一种自动演化的域特定结构的深度零填充算法。

1.3 评估

        对于RGB相机下的每个身份,我们随机选择一个/十个身份图像,以形成用于单张/多张设置的图库集。至于探针组,则使用所有图像。给定探测图像,通过计算探测图像和图库图像之间的相似性来进行匹配。在不同位置的摄像机之间进行匹配 ,相机2和相机3位于同一位置,因此相机3的探测图像跳过相机2的图库图像。

2 网络结构比较

2.1 One-stream Structure

有单一输入,所有参数在整个网络中共享。

2.2 Two-stream Structure

        有两个输入&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值