跨模态行人重识别-阅读笔记1《HPILN: A feature learning framework for cross modality person re-identification》

本文介绍了HPILN,一种针对跨模态行人重识别问题的端到端特征学习框架。该框架在SYSU-MM01数据集上表现出高精度,首次尝试将RGB-RGB Re-ID神经网络应用到RGB-IR任务,通过hard pentaplet loss处理模态差异。实验表明,结合identity loss,HPILN能有效提升识别准确性。

 

一.HPILN论文链接

链接1:(最终版已录用)

链接2:(arxiv非最终版

二.跨模态行人重识别简介


现有的行人重识别研究大部分集中于RGB图像的研究,然而RGB摄像头在黑暗处不能获取清晰图像,现有的摄像头往往集成了RGB摄像头和红外摄像头(IR Camera)的功能于一身,在黑暗处使用红外摄像头获取图像。存在这种情况:嫌疑人在黑暗与亮光处穿行,从而被RGB摄像头和红外摄像头拍摄到,则产生这样的需求:需要判断RGB摄像头拍摄到的行人和红外摄像头拍摄到的行人是否是同一人。2017年,郑伟诗团队公开了首个跨模态行人重识别数据集(SYSU-MM01),以及对应的benchmark。

RGB-IR ReID领域,两年来出现了许多优秀的论文:

### 关于红外-可见光跨模态行人重识别中的X模态实现 #### X模态生成器的设计原理 针对红外-可见光跨模态行人重识别(Infrared-Visible Cross-Modal Person Re-ID, IV-ReID),一种创新的方法引入了辅助的中间模态X来缓解因不同成像条件造成的显著域间差距。具体来说,X模态是由一个基于自监督学习设计的轻量化神经网络产生的,旨在捕捉并转换来自可见光(V)模态的关键视觉特征到一个新的表达形式中[^1]。 #### 实现细节 这个过程涉及到了一系列精心设计的操作: - **双层1x1卷积结构**:首先利用一对连续的1x1大小的卷积核处理原始的三通道彩色图片数据;前者负责降维至单一灰度级别,后者则再次扩展回三维空间以便后续操作。 - **非线性变换**:紧接着上述步骤之后加入了一个ReLU函数作为激活单元,赋予模型更强的数据拟合能力和更丰富的内部表征层次[^5]。 ```python import torch.nn as nn class XModerator(nn.Module): def __init__(self): super(XModerator, self).__init__() self.conv1 = nn.Conv2d(3, 1, kernel_size=1) self.relu = nn.ReLU() self.conv2 = nn.Conv2d(1, 3, kernel_size=1) def forward(self, x): out = self.conv1(x) out = self.relu(out) out = self.conv2(out) return out ``` #### 特征提取与融合策略 为了有效地关联起原本相异甚远的两种传感模式下的观测对象,提出了共享权重机制下的多分支架构来进行联合训练。即让同一套参数同时作用于RGB、X及IR三种类型的样本之上,在统一的空间内完成身份判别任务的同时也促进了彼此之间潜在联系的学习[^4]。 #### 损失函数构建 考虑到实际应用场景中存在的类别不平衡现象以及目标检测难度不均等问题,采用了改进版Triplet Loss——Cross Modal Grouping (CMG) loss Lc ,它不仅能够拉近同类个体间的距离分布,还能有效拉开异类实例之间的间隔,进而提升整体辨识精度。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值