Learning Cross-Modal Deep Representations for Robust Pedestrian Detection

本文介绍了通过学习和转移跨模态深度表示来增强行人检测的方法。研究包括概述、区域重建网络、多尺度检测网络、优化策略以及具体的行人检测应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Abstract

       本文提出了一种在不利照明条件下检测行人的新方法。 我们的方法依赖于一种新型的跨模态学习框架,它基于两个主要阶段。 首先,给出一个多模态数据集,采用深度卷积网络学习非线性映射,对RGB和热图之间的关系进行建模。 然后,所学习的特征表示被迁移到第二个深度网络,其接收RGB图像作为输入,并输出检测结果。 以这种方式,学习到了对不良照明条件具有判别性和鲁棒性的特征。 重要的是,在测试时,只考虑第二条流水线,不需要热量数据。 我们的广泛评估表明,所提出的方法胜过了 具有挑战性的KAIST多光谱行人数据集的state-of-the-art,并且与以前的方法在流行的Caltech数据集上具有竞争力。


1.Introduction

       行人检测研究[3]已经在具有挑战性的条件下取得了巨大进步,例如杂乱的背景,大量遮挡和微小目标外观。对于许多其他计算机视觉任务,在过去几年中,由于基于深层网络的方法,实现了显着的性能提升[21,1,17,32]。另外,采用新颖的传感器,例如热和深度摄像机,提供了新的机会,通过解决不利的照明条件和遮挡等问题,推进了行人检测的最新技术[15,11,24]。然而,监控系统中绝大多数相机网络仍然采用传统的RGB传感器和在照明变化、阴影和低外部光线情况下行人检测仍然是一个具有挑战性的开放性问题。
      本文介绍了一种基于卷积神经网络(CNN)的新方法来解决这个问题。我们的方法受到最近的工作的启发,表明从跨模态数据学习深层次的表示对于检测和识别任务是非常有益的[12,13]。然而,大多数方法假定大量可用的注释数据集。在行人检测的具体情况下,社区可以依赖于使用监控摄像机,汽车和机器人平台收集的大量视觉数据,但是几乎没有标记的多模态数据集。因此,由于近来无监督的深度学习技术的成功,我们引入了一种学习cross-modal表示的行人检测方法,不需要行人的外边框注释。更具体地说,我们提出利用来自多光谱数据的信息,并使用深度卷积网络学习从RGB到热图像的非线性映射,而无需人为的监督。然后通过将学习的表示集成到第二个深层网络中,通过对RGB数据进行操作并有效地建模多尺度信息来利用cross-modal映射。重要的是,在测试时,不需要热图数据,仅在彩色图像上进行行人检测。
       图1描述了所提出的方法的概述。我们的直觉,如图2所示,是通过利用所提出的方法和多光谱数据,更容易区分彩色图像中的hard-negative样本(例如,具有类似于行人外观的电杆或树),从而提高检测精度。在不良照明条件下捕获的几帧,在公开数据集的实验结果表明我们的方法优于以前的方法。本文的主要贡
### 跨模态子空间聚类中的深度典型相关分析 跨模态子空间聚类是一种旨在将来自不同模态的数据映射到一个共享的低维子空间的技术,在该子空间中可以执行有效的聚类操作。这种方法的核心在于如何有效地融合多源异构数据并保持其内在结构一致性。其中,基于深度典型相关分析(Deep Canonical Correlation Analysis, DCCA)的方法提供了一种强大的工具来解决这一问题。 #### 方法概述 DCCA 是一种无监督的学习框架,能够通过最大化两个视图之间的线性和非线性关联来学习特征表示。具体而言,它扩展了传统的典型相关分析(Canonical Correlation Analysis, CCA),使其适用于复杂的非线性关系建模。在跨模态子空间聚类的应用场景下,DCCA 的主要作用是对齐不同模态间的信息,使得它们能够在统一的空间中被处理[^1]。 为了进一步提升模型的表现力以及适应实际应用场景的需求,一些改进版算法引入了额外约束条件或者采用了更先进的神经网络架构设计思路。例如,“Cross-Modal Subspace Clustering via Deep Canonical Correlation Analysis” 提出了结合自表达特性与正则化项的目标函数形式: \[ L = \sum_{i=1}^{N}\|X_iW - XZ_i\|^2_F + \lambda \|Z_i - Z_j\|^2_F, \] 这里 \(X\) 表示输入样本矩阵;\(W\) 和 \(Z\) 则分别代表权重参数向量及系数矩阵变量集合[\(^{3}\)]。上述公式的第一部分用于鼓励同类别的实例彼此靠近形成簇状分布模式;而第二部分则是用来增强两组投影后的嵌入结果之间的一致程度。 此外,还有其他变体如加入对抗训练机制以克服领域差异带来的负面影响等问题的研究成果也被广泛报道出来。 ```python import tensorflow as tf from keras.layers import Input, Dense from keras.models import Model def build_dcca_model(input_dim_1, input_dim_2, hidden_layer_sizes=[1024, 512]): # Define two separate networks for each view. inputs_view1 = Input(shape=(input_dim_1,)) x1 = inputs_view1 inputs_view2 = Input(shape=(input_dim_2,)) x2 = inputs_view2 for size in hidden_layer_sizes[:-1]: x1 = Dense(size, activation='relu')(x1) x2 = Dense(size, activation='relu')(x2) outputs_view1 = Dense(hidden_layer_sizes[-1], name="output_view1")(x1) outputs_view2 = Dense(hidden_layer_sizes[-1], name="output_view2")(x2) model = Model(inputs=[inputs_view1, inputs_view2], outputs=[outputs_view1, outputs_view2]) return model ``` 此代码片段展示了构建双视角深度典型相关分析模型的基本流程。用户可以根据自己的需求调整层数、节点数以及其他超参设置等内容。 #### 应用优势 相比传统方法,采用 DCCA 实现的跨模态子空间聚类具有以下几个显著优点: - **鲁棒性强**:即使面对含有噪声干扰的情况依旧能维持较好的性能表现; - **泛化能力好**:由于充分利用到了深层次特征交互规律,所以对于未见过的新类别也能较好预测归属情况; - **易于集成优化策略**:无论是增加先验知识指导还是融入更多高级组件都非常方便可行。 然而值得注意的是,尽管如此先进但仍可能存在某些局限之处比如计算成本较高或者是难以调参找到全局最优解等等挑战等待着未来工作去探索完善。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值