跨模态行人重识别：RGB-Infrared Cross-Modality Person Re-Identification 学习记录笔记

原创

已于 2022-03-16 15:27:27 修改

· 6.7k 阅读

·

7

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #python

于 2022-03-16 15:16:35 首次发布

目录

1.1 数据集：

2 网络结构比较

2.1 One-stream Structure

2.2 Two-stream Structure

2.3 Asymmetric FC layer structur

3.1 单流和双流结构的连接

3.2 单流结构

4 深度零填充

4.1 网络输入分析

4.2 RGB-IR深度零填充

5.1 模型比较

5.2 模型分析

原文链接

论文链接：RGB-Infrared Cross-Modality Person Re-Identification

代码链接：code

摘要:

目前大多数Re-ID都是基于 RGB 图像。但是有时RGB 图像并不适用，例如在黑暗的环境或夜间。在许多视觉系统中，红外 (IR) 成像变得必不可少。为此，需要将 RGB 图像与红外图像进行匹配，这些图像是异构的，具有非常不同的视觉特征。

评估了现有流行的跨域模型，包括三种常用的神经网络结构（单流、双流和非对称 FC 层）并分析它们之间的关系。提出了深度零填充，用于训练单流网络，使其自动进化网络中特定领域的节点，以进行跨模态匹配。

1 介绍

由于大多数监控摄像机能够在黑暗中自动从RGB模式切换到IR模式。分别在白天和夜间在两个室外场景中捕获的RGB图像和红外（IR）图像的示例。每两列中的图像都是同一个人的。由接收不同波长光的设备捕获，同一个人的RGB图像和红外图像看起来非常不同。

第一行的 RGB 图像具有三个包含可见光颜色信息的通道，而第三行的 IR 图像具有一个包含不可见光信息的通道。因此，它们可以被视为异构数据。其次，从成像原理来看，RGB和IR图像的波长范围不同。

1.1 数据集：

包括来自 6 个摄像头的 491 个身份的 RGB 和 IR 图像，总共提供 287,628 个 RGB 图像和 15,792 张红外图像。包括两个红外线摄像机和四个RGB摄像机，利用Kinect V1在两个明亮的室内（房间1和房间2）采集相机1和相机2的RGB图像。对于每个人，至少有400个具有不同姿态和视点的连续RGB帧。摄像机3和摄像机6的IR图像在黑暗中由IR摄像机捕获，摄像机3放置在暗环境中的房间2中，而摄像机6放置在具有背景杂波的室外通道中。摄像机4和5是放置在两个室外场景中的RGB监视摄像机。

SYSU-MM01 数据集中有 491 个有效 ID。我们有一个固定的分割，使用 296 个身份进行训练，99 个身份用于验证，96 个身份用于测试。在训练过程中，所有相机中训练集中的 296 人的所有图像都可以应用。RGB相机的样品用于gallery set，IR摄像机的样品用于probe set。

1.2 贡献

（1）首次提出了支持RGB-IR交叉模态Re-ID研究的标准基准SYSU - MM01。进行了大量的实验来评估跨模态RGB-IR Re-ID的流行的基线深度学习体系结构。 (2) 分析了三种不同的网络结构(单流结构、双流结构和非对称FC层结构)，并分析了它们的有效性。 (3) 在RGB-IRRe-ID任务优化的单流网络中，提出了一种自动演化的域特定结构的深度零填充算法。

1.3 评估

对于RGB相机下的每个身份，我们随机选择一个/十个身份图像，以形成用于单张/多张设置的图库集。至于探针组，则使用所有图像。给定探测图像，通过计算探测图像和图库图像之间的相似性来进行匹配。在不同位置的摄像机之间进行匹配，相机2和相机3位于同一位置，因此相机3的探测图像跳过相机2的图库图像。

2 网络结构比较

2.1 One-stream Structure

有单一输入，所有参数在整个网络中共享。

2.2 Two-stream Structure

有两个输入&

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。