行人重识别（三）论文笔记 RGB-Infrared Cross-Modality Person Re-Identification_zero-padding 可见光红外行人重识别-优快云博客

本文链接：https://blog.youkuaiyun.com/wenroudebaozi/article/details/109383717

该博客介绍了针对RGB-红外跨模态行人重识别的研究，包括SYSU-MM01数据集的创建，以及分析了单流、双流和非对称FC层三种网络结构。此外，提出了深层零填充算法，通过在输入中添加特定模态的零通道，使网络能自动学习模态差异，提升跨模态识别效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文链接 RGB-Infrared Cross-Modality Person Re-Identification
代码链接rgb_IR_personreid
以下内容并非完整翻译！

0. 引言

现阶段大部分工作都关注基于RGB图像的Re-ID，然而在很多应用场景中RGB是无法满足监控需要的，例如黑暗环境，因此红外图像（Infrared image）就很有必要了，而红外图像与RGB图像之间存在着较大差异，因此，基于RGB图像的Re-ID任务在这方面就存在局限性，本篇论文就是为了促进跨模态（IR-RGB）的行人重识别进行的一次伟大尝试。

1. 主要贡献（1）

提出了跨模态行人重识别领域的一个常用数据集------SYSU-MM01
数据集中共491个行人id，296个id用来训练，99个id用来验证，96个id用来测试模型，在训练阶段使用的296个id既有RGB图像也有IR图像，而测试阶段使用IR图像做probe set，RGB图像做gallery set。也就是说待检索图像是红外图像，而检索库为RGB图像。除此之外，本文还设置了两种模式—全局搜索和室内搜索。顾名思义，全局搜索就是在所有场景数据中搜索待检索目标，而室内搜索即是仅在室内拍摄的RGB图像中搜索目标。

2. 主要贡献（2）

分析了现存的较流行的三种网络结构-------（单流结构、双流结构、非对称FC层结构）

上图为论文评估中的四个网络结构。转换块的结构取决于基础网络。转换块和FC层的颜色指示是否共享参数。红色和蓝色表示特定参数，绿色表示共享参数

2.1 单流结构（One-stream Structure）

特点：单一输入（RGB图像）、全局参数共享。
在分类、检测、追踪方面表现很好的有：AlexNet、VGG、GoogleNet、ResNet等等。
在Re-ID上表现较好的：JSTL-DGD等。

2.2 双流结构（Two-stream Structure）

特点：两个输入、浅层参数是针对各域特定的而深层参数是共享的。

2.3 非对称全连接层结构（Asymmetric FC Layer Structure）

特点：除了最后全连接层，其他参数均共享。
假定不同域的特征提取方法是相同的，在特征层面实现域自适应。

3. 主要贡献（3）

提出能够自动扩展域特定结构的深层零填充算法（deep zero-padding）
在这里插入图片描述
图中首先将RGB图像转为单通道灰度图，然后将其作为RGB-specific zero-padding的第一通道，使用全零填充第二通道；IR图像则作为IR-specific zero-padding的第二通道，全零填充第一通道。这样就得到两种二通道输入RGB-specific zero-padding和IR-specific zero-padding。
作者根据大量实验证明这种深度零填充的方式能够使网络扩展特定域节点（domain-specific nodes）更加灵活。通俗的说（个人理解）就是网络能够隐式的学习到两种模态的区别。