论文地址:Multi-Modal Disordered Representation Learning Network for Description-Based Person Search
代码地址:未开源(2025.01.22)
bib引用:
@inproceedings{
yang2024multi,
title={
Multi-Modal Disordered Representation Learning Network for Description-Based Person Search},
author={
Yang, Fan and Li, Wei and Yang, Menglong and Liang, Binbin and Zhang, Jianwei},
booktitle={
Proceedings of the AAAI Conference on Artificial Intelligence},
volume={
38},
number={
15},
pages={
16316--16324},
year={
2024}
}
动机:全局方法忽视视觉和文本信息的细粒度细节;局部方法因手工分割或依赖额外模型,忽略了局部特征间的整体对应关系;局部+全局的方法忽视全局特征、依赖额外模型或计算量大且无法端到端训练等问题
解决方案:ViT+BERT(无序局部学习模块+跨模态交互模块)
InShort
提出了一种多模态无序表示学习网络(MDRL),用于基于描述的行人搜索,在CUHK - PEDES和ICFG - PEDES数据集上的实验结果表明,该方法优于现有方法,取得了最先进的性能。
- 研究背景:基于描述的行人搜索旨在通过文本描述检索目标行人的图像,是跨模态学习的关键任务,在公共安全和智能监控等领域意义重大。当前方法存在忽视局部特征全局关系、引入额外模型影响网络性能且无法端到端训练的问题。
- 相关工作
- 行人重识别:多种方法被提出,如分区策略、基于姿态信息的方法、结合整体与局部表示的方法等,但这些方法存在忽视全局特征、依赖额外模型或计算量大等问题。
- 基于描述的行人搜索:许多模型被设计用于完成该任务,部分方法聚焦全局层面,忽视了视觉和文本信息的细粒度细节;一些探索局部特征的方法,因手工分割或依赖额外模型,忽略了局部特征间的整体对应关系。
- 方法
- 总体框架:包含跨模态全局特征学习架构、局部学习模块(LLM)和跨模态交互模块(CIM),使用识别(ID)损失和跨模型投影匹配(CMPM)损失优化模型。
- 跨模态全局特征学习架构:由视觉信息学习分支和文本信息学习分支组成。视觉分支利用视觉Transformer(ViT)提取视觉表示,文本分支使用预训练语言模型BERT结合可学习的Transformer编码器学习文本嵌入。
- 无序局部学习模块:对视觉或文本嵌入令牌序列进行随机打乱和重组,结合全局特征学习局部特征,再通过局部空间Transformer编码器探索局部特征,增强网络的表示学习能力和鲁棒性。
- 跨模态交互模块:由多个跨模态交互Transformer编码器构成,将视觉和文本令牌序列连接并添加可学习的跨模态[cls]嵌入令牌,学习跨模态交互表示,促进两个分支在提取信息时考虑模态间的相关性。
- 实验
- 实验设置:在CUHK - PEDES和ICFG - PEDES数据集上进行评估,采用累积匹配特征曲线(CMC),以Rank - 1、Rank - 5和Rank - 10准确率作为评估指标,对图像和文本进行预处理,设置训练参数。
- 对比实验:与现有先进方法对比,在两个数据集上MDRL均取得最佳性能,在CUHK - PEDES数据集上Rank - 1准确率达74.56% ,比现有最佳方法IRRA高1.18%;在ICFG - PEDES数据集上Rank - 1准确率为65.88% ,比IRRA高2.42%。
- 消融实验:验证了各组件的有效性,无序局部学习模块(DDL)和跨模态交互模块(CIM)能提升性能;确定了可学习Transformer编码器(LTE)、CIM的合适数量,以及视觉和文本信息的最佳分割组数;证明了MDRL的无序分组方法优于传统分割方法。
- 研究结论:提出的MDRL能充分提取有判别力的视觉和文本特征,通过无序局部学习策略和跨模态交互,在不依赖额外辅助模型的情况下,表现出强大的判别表示学习能力,实验结果验证了其优越性。
摘要
基于描述的人物搜索旨在通过文本描述检索目标身份的图像。这项任务的挑战之一是从图像和描述中提取歧视性表示。现有的方法大多采用part based split 方法(基于分割成组件的方法)或外部模型来探索局部特征的细粒度细节,忽略了部分信息之间的全局关系,导致网络不稳定。为了克服这些问题,我们提出了一个多模态无序表示学习网络 (MDRL),用于基于描述的人物搜索,以完全提取视觉和文本表示。具体来说,我们设计了一个跨模态全局特征学习架构,从两种模态中学习全局特征,满足任务的需求。基于我们的全局网络,我们引入了无序局部学习模块,通过无序重组策略从视觉和文本两个方面探索局部特征,增强整个网络的稳健性。此外,我们引入了一个跨模态交互模块,以指导两个流在考虑模态之间的相关性的情况下提取视觉或文本表示。在两个公共数据集上进行了广泛的实验,结果表明,我们的方法在 CUHK-PEDES 和 ICFGPEDES 数据集上优于最先进的方法,并取得了卓越的性能。
Introduction
1.1. 研究现状【局部表征提取的方法大多采用hard split策略忽略了局部-全局之间的关系】
许多方法利用 Local Representation Extract 方案来丰富视觉和文本信息。然而,这些现有的方法大多采用硬分割策略,将视觉和文本表示按部分划分,提取部分信息,忽略了局部特征之间的全局关系。如果仅按局部或短语提取两种模式的局部特征,则将探索每个部分的单个细节,但它们之间的整体相关性将被破坏。例如,当两个不同的行人同时背着白色背包时,有关白色背包的信息几乎不会为行人区分提供有益的帮助。但是,当背包与其他部分线索(如蓝色外套或白色裤子)相关联时,如图 1 所示,包含整体相关性的部分表示将为最终特征的可区分性提供更有力的支持。因此,有必要探索具有全局相关性的部分表示。另一方面,其中一些方法(Wang 等人,2020 年;Jing et al. 2020)在网络中引入了额外的模型,例如语义分割、姿态估计或属性识别,以指导区域的划分。附加模型的准确性直接影响框架的性能,整个网络无法进行端到端的训练。
图 1:现有方法和我们的方法图示。我们设计了一种无序策略,无需额外模型即可增强局部线索的全局相关性,并增强图像/文本特征。
1.2. 本文工作【多模态无序表示学习网络:局部特征重组来学习相关性】
针对上述问题,我们提出了一种基于描述的人物搜索的多模态无序表示学习网络,以提高跨模态模型的学习能力。首先,我们构建了一个强大的跨模态全局特征学习架构来促进任务,它包含一个视觉信息学习分支和一个文本信息学习分支,分别生成图片和文本的特征。为了有效地提取图像和描述中的部分信息,我们将视觉或文本标记序列进行整合,并将它们重新组织成不同的组。与传统的分割方法不同,每组都包含整个图像或描述的随机部分。我们将图像或文本的全局表示与每个组连接起来,以了解局部特征以及来自这些无序标记序列的部分信息之间的相关性。此外,我们将视觉和文本标记序列结合起来,并在训练阶段利用识别损失将它们关联起来,以同时优化两个分支。
图 2:所提出的方法图示。
3. 方法
整体网络在图 2 中展示,框架包含跨模态全局特征学习架构、局部学习模块(LLM)和跨模态交互模块(CIM)。
在训练过程中,训练数据假设为 D = D= D= I r , T r r = 1 G {I_{r}, T_{r}}_{r=1}^{G} Ir,Trr=1G,其中 G 表示每批的图像 - 文本对数量。将行人的图像和描述都输入到全局学习架构中,利用视觉模型和语言模型学习视觉整体表示 f g I f_{g}^{I} fgI和文本全局表示 f g T f_{g}^{T} fgT。
然后,视觉补丁标记序列 f i I ( i ∈ [ 1 , N ] ) {f_{i}^{I}(i \in[1, N])} fiI(i∈[1,N])和文本单词标记序列 f j T ( j ∈ [ 1 , M ] ) {f_{j}^{T}(j \in[1, M])} fjT(j∈[1,M])分别由 LLM 和 CIM 处理,以学习视觉/文本局部特征和跨模态表示,i 和 j 是整数。
最后,结合识别(ID)损失和跨模型投影匹配(CMPM)损失(Zhang and Lu 2018)来监督和优化整个模型。
3.1. 跨模态全局特征学习架构
我们为基于描述的人物搜索构建了一个跨模态全局特征学习架构,其中包含一个视觉信息学习分支和一个文本信息学习分支。该管道如图 2 所示。
3.2. 视觉信息学习分支
我们利用 视觉Transformer(ViT) 提取视觉表示。给定一张图像 I ∈ R ( C × H × W ) I ∈ R^{(C×H×W)} I∈R(C×H×W),其中 C、H 和 W 分别表示图像的通道数、高度和宽度。我们将图像分割为 N 个固定大小的图像块 I i ∣ i ∈ [ 1 , N ] {I_i | i ∈ [1, N]} Ii∣i∈[1,N]。然后这些块被输入视觉骨干网络以学习全局视觉特征 f g f_g fg。
具体而言,我们使用一个线性投影嵌入层将每个图像块映射到 D 维空间,表示为“tokens” x i x_i xi。特征嵌入公式如下: x i = E ( I i ) (1) x_i = E(I_i) \tag{1} xi=E(I