Paper Read: Robust Deep Multi-modal Learning Based on Gated Information Fusion Network

最新推荐文章于 2024-09-20 20:32:56 发布

转载最新推荐文章于 2024-09-20 20:32:56 发布 · 650 阅读

深度学习同时被 2 个专栏收录

43 篇文章

订阅专栏

图像处理

38 篇文章

订阅专栏

提出了一种基于门控信息融合网络的鲁棒深度多模态学习方法，旨在自适应地融合多模态信息，提升物体检测效果。通过两路网络提取不同模态特征，利用GIF网络进行信息融合，生成加权特征图。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Paper Read: Robust Deep Multi-modal Learning Based on Gated Information Fusion Network

转载自：https://www.cnblogs.com/wangxiaocvpr/p/9377542.html

Robust Deep Multi-modal Learning Based on Gated Information Fusion Network

Paper：https://arxiv.org/pdf/1807.06233.pdf

Related Papers:

1. Infrared and visible image fusion methods and applications: A survey 　　Paper

2. Chenglong Li, Xiao Wang, Lei Zhang, Jin Tang, Hejun Wu, and Liang Lin. WELD: Weighted Low-rank Decomposition or Robust Grayscale-Thermal Foreground Detection. IEEE Transactions on Circuits and Systems for Video Technology (T-CSVT), 27(4): 725-738, 2017. [Project page with Dataset and Code]

3. Chenglong Li, Xinyan Liang, Yijuan Lu, Nan Zhao, and Jin Tang. RGB-T Object Tracking: Benchmark and Baseline.[arXiv] [Dataset: Google drive, Baidu cloud] [Project page]

本文针对多模态融合问题（Multi-modal），提出一种基于 gate 机制的融合策略，能够自适应的进行多模态信息的融合。作者将该方法用到了物体检测上，其大致流程图如下所示：

如上图所示，作者分别用两路 Network 来提取两个模态的特征。该网络是由标准的 VGG-16 和 8 extra convolutional layers 构成。另外，作者提出新的 GIF（Gated Information Fusion Network）网络进行多个模态之间信息的融合，以取得更好的结果。动机当然就是多个模态的信息，是互补的，但是有的信息帮助会更大，有的可能就质量比较差，功效比较小，于是就可以自适应的来融合，达到更好的效果。

Gated Information Fusion Network (GIF)：