RGB-Infrared Cross-Modality Re-Identification


首先分析下Re-ID这个task的特点,和tracking有点类似,目标是同一个人在不同场景、角度,不同姿势,甚至是不同模态下的归类。这意味着需要拉近同一个人在不同场景、模态下对应的feature。因此,只要是某个人的图像,不论是哪个模态,力争最终提取到的feature是有共同特性的。
通常使用孪生网络提特征,再使用共享层提公共特征,以实现模态融合。一些模态间、类间的loss来引导此过程,或者是使用GAN。

对于其他任务就不一定要强行融合模态了,比如RGBT counting,我觉得是个相辅相成的过程吧,有些可以作为补充信息用上,而一些黑夜的完全是黑的,只能抛弃……emmm……我想要解决的是模态具有主从性的任务,RGB in counting & depth in segmentation都是作为非必要的补充信息

one-stream

《RGB-Infrared Cross-Modality Person Re-Identification》

2017-ICCV,这个task的挖坑论文:
在这里插入图片描述
Motivation是显而易见的,应对夜晚场景,不多说了。

Challenge1:RGB images是三通道RGB, IR images是单通道的不可见光,两个模态有着本质差别。
Challenge2: Colour information iscrucial in RGB Re-ID, however can hardly be used in RGB-IR Re-ID
Challenge3:RGB Re-ID中就存在的viewpoint change,
pose and exposure problems,在RGB-IR中仍然存在且更加麻烦

三个贡献:

  1. 作者做了一个跨RGB&IR两模态的Re-ID数据集SYSU-MM01进行研究(中大牛逼,打call!)
  2. 研究分析了跨模态任务的几种结构,one-stream two-stream 以及非对称FC:
    在这里插入图片描述
  3. 提出了deep zero-padding方法进行跨模态建模,适用于one-stream and two-stream structure

Structure
cross-modal的主要几种结构如下:
在这里插入图片描述
本文分析了one-stream&two-stream两种结构,并且经过一些假设和推导后认为二者是可以等价的,one-stream可以对待不同domain的数据进行不同的反应,激活specific&shared nodes而忽略其他domain的。理论上不需要先经过specific layer再经过shared layer进行跨模态建模,one-stream也可以自动的选择性激活神经元。

因此提出zero-padding的方式。Re-ID也是类似于分类,若是跨模态,在input为两个模态都预留了位置。RGB&IR image都可以输入,缺失的domain就用0来补。one-stream model会自动依据不同不同domain数据的输入进行映射~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值