Probing Synergistic High-Order Interaction in Infrared and Visible Image Fusion

Probing Synergistic High-Order Interaction in Infrared and Visible Image Fusion

论文

N. Zheng et al., “Probing Synergistic High-Order Interaction in Infrared and Visible Image Fusion2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, 2024, pp. 26374-26385

现有不足

  1. 现有的深度学习方法通常难以显式有效地建立红外和可见图像之间的协同关联。尽管像加权拼接等方法能够捕捉一些相关性,但它们未能充分挖掘两种模态之间的内在相互依赖,特别是在高阶空间和通道交互方面。未能充分利用红外与可见图像在空间和通道维度上的协同作用
  2. 将二阶交互拓展成任意阶数由于矩阵乘法而带来较大的计算负担,因为虽然点积非常有效,但它伴随着显著的计算成本,使得通过级联自注意力机制实现高阶操作变得不切实际

[!TIP]
二阶交互:特征之间的简单相互关系,例如两个特征的相似性,可以通过简单的计算(例如点积)来捕捉
高阶交互:考虑多个特征、多层次信息之间的综合作用,强调了特征之间的非线性关系

本文创新点

  1. 通过在空间和通道维度中引入高阶交互,使得红外和可见光图像能够实现高阶融合;
  2. 将时域的的级联自注意力机制的点积转化为频域上的逐元素相乘,降低计算复杂度.

主要算法

在这里插入图片描述

  1. 将上图的算法交互链转化为如下公式,由此可以得到任意阶数的空间和通道的相互作用

F V → O S ( ( F V ) N ) → O C ( ( F V S 1 ) N ) → O S ( ( F V c 1 ) N ) → O C ( ( F V S 2 ) N ) → … O S ( ( F V C L − 1 ) N ) → O C ( ( F V s L ) N ) . ( 1 ) F_{\mathcal{V}}\to\mathcal{O}_S\left(\left(F_{\mathcal{V}}\right)^N\right)\to\mathcal{O}_C\left(\left(F_{\mathcal{V}_S}^1\right)^N\right)\to\mathcal{O}_S\left(\left(F_{\mathcal{V}_c}^1\right)^N\right)\to\mathcal{O}_C\left(\left(F_{\mathcal{V}_S}^2\right)^N\right)\to\ldots\mathcal{O}_S\left(\left(F_{\mathcal{V}_C}^{L-1}\right)^N\right)\to\mathcal{O}_C\left(\left(F_{\mathcal{V}_s}^L\right)^N\right).(1) FVOS((FV)N)OC((FVS1)N)OS((FVc1)N)OC((FVS2)N)OS((FVCL1)N)OC((FVsL)N).(1)

其中的高阶空间交互在多头注意力的基础上进行更改,时域上的公式为:

O S ( ( F V ) 2 ) = F v s 1 = softmax ( F V W Q ⊗ F R W K T d k ) ⊗ F R W V = A ⊗ V OS((F_V)^2) = F_{vs}^1 = \text{softmax}\left(\frac{F_VW_Q\otimes {F_RW_K}^T}{\sqrt{d_k}}\right) \otimes F_RW_V=A\otimes V OS((FV)2)=Fvs1=softmax(dk FVWQFRWKT)FRWV=AV(2)

但是点积的计算代价太大,级联注意力机制不现实,因此改用频域简化计算,其中 ⊙ \odot 表示 Hadamard 积:

A = F − 1 ( F ( F V W Q ) ⊙ F ( F R W K ) ‾ ) \mathbf{A}=\mathcal{F}^{-1}\left(\mathcal{F}\left(F_{\mathcal{V}}\mathbf{W}^Q\right)\odot\overline{\mathcal{F}\left(F_{\mathcal{R}}\mathbf{W}^K\right)}\right) A=F1(F(FVWQ)F(FRWK))(3)

Norm ( A ) = softmax ( A d k ) \text{Norm}(\mathbf{A}) = \text{softmax}\left(\frac{\mathbf{A}}{\sqrt{d_k}}\right) Norm(A)=softmax(dk A)并结合(2)得到:

O S ( ( F V ) 2 ) = F V S 1 = Norm ( A ) ⊙ ( F R W V ) \mathcal{O}_S\left((F_{\mathcal{V}})^2\right) = F_{\mathcal{V}_S}^1 = \text{Norm}(\mathbf{A}) \odot (F_{\mathcal{R}} \mathbf{W}^V) OS((FV)2)=FVS1=Norm(A)(FRWV)(4)

转化为高阶就是

O S ( ( F V i − 1 ) j ) = F V S i = Norm ( F V S i − 1 i W Q j ) ⊙ ( F R S i − 1 i W V j ) \mathcal{O}_S\left((F_V^{i-1})^j\right) = F_{\mathcal{V}_S^i} = \text{Norm}\left(F_{\mathcal{V}_S^{i-1}}^i \mathbf{W}^{Q_j}\right) \odot \left(F_{\mathcal{R}_S^{i-1}}^i \mathbf{W}^{V_j}\right) OS((FVi1)j)=FVSi=Norm(FVSi1iWQj)(FRSi1iWVj)(5)

高阶通道交互在 SE 的基础上进行更改,公式如下:

O C ( ( F i ) j ) = F C j i = S i g m o i d ( W Z j i ) ⋅ ( W F j − 1 i ) O_C((F_i)^j) = F_{C_j}^i = Sigmoid(W Z_j^i) \cdot (W F_{j-1}^i) OC((Fi)j)=FCji=Sigmoid(WZji)(WFj1i)(6)

其中 Z j i Z_j^i Zji 为第 j 通道的全局统计量(均值/方差)的 i 阶空间交互定义为: Z i = 1 H × W ∑ x = 1 H ∑ y = 1 W F i ( x , y ) Z^i = \frac{1}{H \times W} \sum_{x=1}^{H} \sum_{y=1}^{W} F^i(x, y) Zi=H×W1x=1Hy=1WFi(x,y)

总结

  1. 现有的多模态图像融合往往只停留在二阶交互,这样往往容易忽略高阶交互的信息,通过级联注意力机制的方式获取高阶交互信息,高阶交互虽然能够挖掘复杂依赖关系,却面临计算量较大的挑战。针对这一问题,本文提出了一种通过空间交互与通道交互相结合并级联注意力机制的方式获取高阶交互信息的方法,在空间维度上,利用频域操作高效建模模态间的高阶空间特征;在通道维度上,通过扩展 SE 模块递归捕捉通道间更深层次的依赖关系,从而在降低计算成本的同时实现了对模态间高阶交互信息的有效建模。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

warren@伟~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值