Paper Read: Robust Deep Multi-modal Learning Based on Gated Information Fusion Network

提出了一种基于门控信息融合网络的鲁棒深度多模态学习方法,旨在自适应地融合多模态信息,提升物体检测效果。通过两路网络提取不同模态特征,利用GIF网络进行信息融合,生成加权特征图。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Paper Read: Robust Deep Multi-modal Learning Based on Gated Information Fusion Network

转载自:https://www.cnblogs.com/wangxiaocvpr/p/9377542.html

 Robust Deep Multi-modal Learning Based on Gated Information Fusion Network

Paper:https://arxiv.org/pdf/1807.06233.pdf 

Related Papers:  

1. Infrared and visible image fusion methods and applications: A survey   Paper 

2. Chenglong Li, Xiao Wang, Lei Zhang, Jin Tang, Hejun Wu, and Liang Lin. WELD: Weighted Low-rank Decomposition  or Robust Grayscale-Thermal Foreground Detection. IEEE Transactions on Circuits and Systems for Video Technology (T-CSVT), 27(4): 725-738, 2017. [Project page with Dataset and Code]

3. Chenglong Li, Xinyan Liang, Yijuan Lu, Nan Zhao, and Jin Tang. RGB-T Object Tracking: Benchmark and Baseline.[arXiv] [Dataset: Google drive, Baidu cloud] [Project page

 

 

本文针对多模态融合问题(Multi-modal),提出一种基于 gate 机制的融合策略,能够自适应的进行多模态信息的融合。作者将该方法用到了物体检测上,其大致流程图如下所示:

 

 如上图所示,作者分别用两路 Network 来提取两个模态的特征。该网络是由标准的 VGG-16 和 8 extra convolutional layers 构成。另外,作者提出新的 GIF(Gated Information Fusion Network) 网络进行多个模态之间信息的融合,以取得更好的结果。动机当然就是多个模态的信息,是互补的,但是有的信息帮助会更大,有的可能就质量比较差,功效比较小,于是就可以自适应的来融合,达到更好的效果。

 

Gated Information Fusion Network (GIF): 

如上图所示:

该 GIF 网络的输入是:已经提取的 CNN feature map,这里是 F1, F2. 然后,将这两个 feature 进行 concatenate,得到 FGFG. 该网络包含两个部分:

1. information fusion network(图2,虚线框意外的部分);

2. weight generation network (WG Network,即:图2,虚线处);

Weight Generation Network 分别用两个 3*3*1 的卷积核对组合后的 feature map FGFG 进行操作,然后输入到 sigmoid 函数中,即:gate layer,然后输出对应的权重 w1w1,w2w2。

Information fusion network 分别用得到的两个权重,点乘原始的 feature map,得到加权以后的特征图,将两者进行 concatenate 后,用 1*1*2k 的卷积核,得到最终的 feature map。

总结整个过程,可以归纳为:

### Centaur 的端到端自动驾驶技术及其测试时训练方法 #### 技术概述 Centaur 的端到端(end-to-end)自动驾驶技术是一种基于深度学习的框架,旨在通过单一神经网络模型实现从传感器输入到车辆控制输出的映射。这种方法减少了传统模块化架构中的复杂性和潜在误差传播问题[^1]。 在实际应用中,这种技术依赖于大量真实世界数据集来捕捉驾驶环境的各种变化因素,例如天气条件、道路状况和其他交通参与者的行为模式等。为了提高系统的鲁棒性,在设计阶段特别注重增强其应对未知场景的能力[^2]。 #### 测试时间训练 (Test-Time Training, TTT) 对于 Centaur 所采用的测试时间训练策略而言,这是一种动态调整机制,允许模型即使是在部署之后仍然能够持续改进性能表现而无需重新收集大规模标注样本集合或者返回实验室进行全面再训练过程[^3]。 具体来说,当遇到未曾见过的新情况时,系统会利用当前时刻获取的信息在线微调内部参数设置从而更好地适应即时需求;与此同时保持原有知识不被遗忘以便维持整体稳定性与可靠性水平不变甚至有所提升[^4]。 以下是该算法的一个简化版本伪代码表示: ```python def test_time_training(model, input_data): prediction = model.predict(input_data) # 初始预测 loss_function = define_loss() # 定义损失函数 optimizer = configure_optimizer() # 配置优化器 with GradientTape() as tape: updated_prediction = model(input_data, training=True) loss_value = loss_function(updated_prediction) gradients = tape.gradient(loss_value, model.trainable_variables) optimizer.apply_gradients(zip(gradients, model.trainable_variables)) return updated_prediction ``` 此段程序展示了如何在一个典型的前向传递过程中加入梯度计算环节,并据此更新权重值以达到自适应目的[^5]。 #### 提升鲁棒性的措施 除了上述提到的技术手段外,还有其他几种途径可以进一步加强系统的抗干扰能力: - 数据增广(Data Augmentation): 对原始图像施加随机变换操作如旋转、缩放和平移等模拟更多可能发生的实际情况; - 不确定估计(Uncertainty Estimation): 让网络不仅给出最终决策还附加相应的可信程度评估指标帮助判断何时应该采取保守行动而非贸然行事; - 多模态融合(Multi-modal Fusion): 结合来自不同类型的感知设备所提供的互补信息共同决定下一步动作方向[^6]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值