Prettybritany-优快云博客

原创文本引导的图像融合方法

首先，使用BLIP2、GRIT、Segment Anything对图像生成Image Caption, Dense Caption, and Semantic Mask，然后将它们喂到chatgpt来生成文本描述text，再将text输入到frozen的BLIP2得到文本特征，最后，将text的特征concat作为q与图像特征计算cross attention再解码。，1、2、3是分开描述，4、5是很全的描述。1.使用clip对text进行编码，将编码后的特征映射到和图像特征统一的维度上，然后作为。

2025-10-02 19:34:55 1217

原创图像融合＋语义

1.引入语义信息：考虑到的需求，将引入融合网络中。2.联合训练：利用分割网络[52]产生的通过反向传播指导融合网络的训练，迫使融合图像包含更多语义信息。m 表示第 m 次迭代。随着训练的进行，β逐渐增大，这是因为随着迭代次数的增加，分割网络更好地拟合融合模型，并且语义损失可以更准确地指导融合网络训练。3.设计梯度残差密集块（GRDB）：为了满足高级视觉任务的需求，开发了一种基于梯度残差密集块（GRDB）的轻量级网络。设计了（GRDB）来增强融合网络对细粒度空间的描述能力。

2025-02-26 15:25:41 1330

原创【论文阅读】LENFusion: A Joint Low-Light Enhancement and Fusion Network for Nighttime Infrared and

1.夜间图像融合受到能见度有限的限制，容易受到光谱污染。当图像场景曝光不均匀或整体照度较低时，融合结果很容易出现类似于图1（c）的结果。红外信息减弱，红框内的可见信息在黑暗中被遮挡。因此，需要增强夜间图像融合的可视性，以便在昏暗环境下进一步提取场景信息，使融合结果包含更多信息。常见的融合方法依赖于低光增强预处理来提取更多可见特征。然而，这种方法很难专门针对融合提供增强功能。如图1（d）所示，在清晰度、对比度和细节方面还有改进的空间。我们提出了一个框架 LENFusion，用于循环反馈联合增强和融合。

2024-10-02 11:38:40 1615 1

原创【论文阅读】Probing Synergistic High-Order Interaction in Infrared and Visible Image Fusion

现有方法只捕获二阶空间交互，忽略了空间和通道维度的高阶交互。这种限制阻碍了多模式之间协同作用的利用。

2024-10-02 11:36:39 1856 1

原创【论文阅读】MRFS: Mutually Reinforcing Image Fusion and Segmentation（CVPR2024）

1.特征中和缺点和低光信息丢失。红外和可见光图像通常在强度和梯度分布方面表现出显着差异。在这种情况下，传统的固定比例的无监督损失可能会削弱有价值的特征，例如对比度，如图 2 所示。一个潜在的解决方案是在优化过程中动态优先考虑源图像中的优质特征，确保保留显着的对比度和纹理。此外，在照明条件不佳的情况下，低强度的可见图像往往会掩盖有价值的细节。在融合过程中，这些细节常常被忽视和丢弃，导致关键信息的丢失，如图2所示。从低强度区域中挖掘出更多细节将有效提高融合图像的整体质量。2.特征有效性得分不匹配。

2024-10-02 11:36:35 2641 4

原创【论文阅读】Equivariant Multi-Modality Image Fusion（CVPR2024）

由于现实中没有一种传感器可以同时捕捉所有模态的信息，因此缺乏真实的融合图像作为训练的参照标准，这对深度学习模型的训练带来了挑战。基于生成对抗网络或去噪扩散模型的方法虽然能尝试让源图像和融合图像保持相似的分布，但这些方法缺乏可解释性和可控性，并且在训练过程中遇到困难。使用人工设计的损失函数（如最小化L1或L2距离）来使融合图像与源图像尽可能接近，但这忽视了融合图像和源图像之间的潜在差异，以及融合图像可能不在与源图像相同的特征空间这一事实。

2024-10-02 11:33:46 1513 5

原创【论文阅读】Text-IF: Leveraging Semantic Text Guidance for Degradation-Aware and Interactive Image Fusion

受环境条件限制，原始采集的红外和可见光图像可能会出现劣化，融合图像质量较低。可见光图像容易受到退化问题的影响，例如低光、过度曝光等。红外图像不可避免地受到噪声（包括热噪声、电子噪声和环境噪声）、对比度降低和其他相关影响的影响。当前的融合方法缺乏自适应解决退化问题的能力，导致融合图像质量低下。依靠手动预处理来增强图像存在灵活性和效率问题。

2024-10-02 11:33:05 1508 1

原创【论文阅读】A Task-guided, Implicitly-searched and Metainitialized Deep Model for Image Fusion

（i）大多数都专注于提升融合图像的视觉效果，而不是考虑下游视觉任务，这给场景理解应用带来了障碍。（ii）当前的融合方法设计了增加深度或宽度的手工架构，这依赖于冗长的专用调整；因此，它们不可避免地导致耗时的结构工程。（iii）这些方法是通过特定的训练数据来学习的，无法获得各种融合场景的泛化能力。

2024-10-02 11:32:03 1370 1

原创【论文阅读】MetaFusion: Infrared and Visible Image Fusion via Meta-Feature Embedding from Object Detection

Separate Optimization忽略了对象检测对图像融合的正面影响，因为它孤立地训练每个任务，缺乏任务间的互动与互补。Cascaded Optimization虽然尝试结合两者，但因直接用高级的对象检测约束低级的图像融合，导致特征不匹配，影响了优化效果。这两种方法都未能充分利用两个任务之间的相互促进潜力。

2024-10-02 11:28:57 1539 1

原创【论文阅读】Multi-modal Gated Mixture of Local-to-Global Experts for Dynamic Image Fusion（ICCV2023）

现有方法通常直接结合不同模态的纹理细节和目标对比度，忽略了现实中的动态变化，导致在良好光照条件下可见光纹理可见度降低，以及在低光照条件下红外对比度降低。

2024-10-02 11:26:59 876 1

原创【论文阅读】SDCFusion：A semantic-driven coupled network for infrared and visible image fusion

1.传统方法需要手工设计融合规则；时间消耗较高。2.现有的图像融合方法只关注像素级融合，忽略了场景中的高级语义信息。

2024-06-10 10:39:56 1422 1

原创【论文阅读】CrossFuse: A novel cross attention mechanism based infrared and visible image fusion approach

红外和可见光图像之间的相似性差异大，使得从这两种模态中提取互补信息变得困难。多阶段融合方法在处理图像时可能会导致信息丢失，并且通常计算成本较高。设计有效的端到端融合模型面临挑战，需要精心设计的损失函数来优化性能。现有基于Transformer的方法过于侧重于自注意力机制而没有充分探索交叉注意力机制，忽视了增强互补信息的重要性。

2024-06-10 10:35:16 894 1

原创【论文阅读】Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

状态空间模型（SSMs）在长序列建模方面展现出了巨大潜力，如Mamba。然而，将SSMs应用于视觉数据表示存在挑战，因为视觉数据对位置敏感，且需要全局上下文以理解视觉信息。

2024-06-10 10:33:50 937 2

原创【论文阅读】MambaDFuse: A Mamba-based Dual-phase Model for Multi-modality Image Fusion

基于卷积神经网络（CNN）的方法由于其有限的感受野，难以捕获全局上下文，这使得生成高质量的融合图像变得具有挑战性。基于自编码器（AE）的特征提取或图像重建在设计能够捕获模态特定和共享特征的编码器时面临挑战。基于生成模型的方法，如生成对抗网络（GANs）和扩散模型，虽然能够生成高质量的融合图像，但在完成融合任务时可能不够高效。GANs的训练不稳定、缺乏可解释性以及模式崩溃是影响其生成能力的关键问题。

2024-06-10 10:32:17 2002 3

原创【论文阅读】TarDAL:Target-aware Dual Adversarial Learning and a Multi-scenario Multi-Modality Benchmark

通过计算像素的显著性值来计算权重 ω1 和 ω2，公式 (5) 中的 Lpixel 表示像素损失，其中包括了融合图像与源图像的像素间的绝对差值。最后，该策略不仅可以生成视觉上吸引人的图像，而且可以在给定训练的网络参数的情况下输出准确的检测，使我们能够找到面向检测的融合的最佳解决方案，并且比独立训练方案更有效地收敛。ω1 和 ω2 是用于计算每个源图像对融合图像贡献的权重，通过调整这两个权重，可以更好地平衡生成的融合图像与源图像之间的像素强度分布。3.数据收集有限，难以学习到两种模态的互补信息并验证有效性。

2024-06-10 10:30:27 1705 1

原创【论文阅读】SegMiF：Multi-interactive Feature Learning and a Full-time Multi-modality Benchmark for Image

为了生成具有视觉吸引力的融合图像以及准确的场景分割结果，我们将这两个任务联合制定为一个目标：g(·)是联合优化两个任务的约束项。在本文中，我们将g(·)视为特征学习约束方式，并通过设计分层注意力机制和交互式训练方案来实现这一目标。

2024-06-10 10:25:06 2399 1

原创【论文阅读】PSFusion：Rethinking the necessity of image fusion in high-level vision tasks

场景恢复分支旨在重建红外图像̂Iir和可见光图像̂Ivi，以及合成融合图像If；稀疏语义感知分支负责预测边界分割结果Ibd、语义分割结果Ise和二值分割结果Ibi。为了在语义感知分支和场景恢复分支之间轻松注入语义特征，我们期望共享这两个分支之间的特征提取网络。然而，场景恢复分支需要保持高分辨率特征以保留细节，而高级视觉任务需要降采样来提取足够的语义特征并捕捉整体结构。这两个要求之间的矛盾阻碍了我们使用现有的骨干作为特征提取网络。

2024-06-10 10:20:52 2235 1

原创【论文阅读】SeAFusion：Image fusion in the loop of high-level vision tasks: A semantic-aware real-time

源图像经过融合网络生成融合图像，而融合网络图像在经过一个分割网络得到分割结果。分割结果与labels构造语义损失，融合图像与源图像之间构造内容损失，其中语义损失只用于约束分割网络，而内容损失与语义损失共同约束融合网络的优化。这样语义损失能够将高级视觉任务（分割）所需的语义信息反传回融合网络从而促使融合网络能够有效地保留源图像中的语义信息。

2024-06-10 10:18:07 2009 1

原创【论文阅读】Unsupervised Misaligned Infrared and Visible Image Fusion via Cross-Modality Image Generation

不同的成像流程和传感器内的热传导导致观察到的红外和可见图像之间出现偏移和变形的不对齐。通过观察发现，直接融合不对齐的红外和可见图像往往会出现严重的幽灵伪影。受 [Wang et al., 2019a;Wang et al., 2019b] 的启发，通过图像到图像翻译来减少跨模态变化，并考虑到红外图像“强调结构胜过纹理”的固有特性，我们提出了一个专门的跨模态生成-配准范式，以减少空间偏移并在不对齐的红外和可见图像融合过程中缓解幽灵问题。

2024-03-01 13:26:02 3048 1

原创【论文阅读】SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness

在本文中，提出了一个考虑图像配准、图像融合和高级视觉任务要求的多功能框架，称为 SuperFusion。它显着扩展了实际应用中图像融合的范围。SuperFusion 由三个组件组成，包括图像配准、融合和语义分割网络。首先，设计配准网络来估计双向变形场，以便可以更简单地使用光度损失和端点损失来提高精度。此外，还开发了一种对称联合配准和融合方案，以平衡输入模态的偏差，并进一步促进融合域中具有相似性约束的配准。

2024-02-29 15:36:57 3510 11

原创【论文阅读】FusionGAN: A generative adversarial network for infrared and visible image fusion

论文链接：FusionGAN: A generative adversarial network for infrared and visible image fusion - ScienceDirect代码： GitHub - jiayi-ma/FusionGAN: FusionGAN: A generative adversarial network for infrared and visible image fusion研究背景：1. 图像融合是一种增强技术，旨在将不同类型传感器获取的图像结合起来，

2024-02-23 22:55:11 1850 1

原创【论文阅读】U2Fusion: A Unified Unsupervised Image Fusion Network

这些重要的参数被赋予更高的权重，以防止忘记从旧任务中学到的东西，而不太重要的参数可以更大程度地修改，以从新任务中学习。然而，随着任务数量的增加，两个紧迫的问题变得难以解决：i）始终保留先前任务的数据所带来的存储问题和ii）使用所有数据进行训练所带来的计算问题，无论是计算难度和时间成本。4.值得注意的是，有一些方法脱离了框架，例如基于梯度转移和总变差最小化的可见光-红外图像融合方法[19]、通过优化结构相似性指数的多曝光图像融合方法[20] ，以及基于密集SIFT进行多焦点图像融合的方法[21]等。

2024-02-23 22:50:49 1644 1

原创【CVPR2023】CDDFuse:Correlation-Driven Dual-Branch FeatureDecomposition for Multi-Modality ImageFusion

这个损失项的动机是，根据我们的 MMIF 假设，分解后的特征 {ΦB I , ΦB V } 将包含更多模态共享信息，例如背景和大规模环境，因此它们通常是高度相关的。通过扁平化前馈网络的结构，扁平化了 Transformer 块的瓶颈，LT 块缩小了嵌入，以减少参数数量，同时保持相同的性能，满足我们的期望。显然，我们的方法更好地整合了红外图像中的热辐射信息和可见图像中的详细纹理。例如，在图1a中，（I）和（II）中的共享编码器无法区分模态特定的特征，而（III）中的私有编码器忽略模态共享的特征。

2024-02-03 22:37:54 2555 1

原创【CVPR2023】Adaptive Spot-Guided Transformer for Consistent Local Feature Matching

然而，以往的方法在细阶段选择固定大小的网格进行匹配。然而，当图像之间的尺度变化太大时，正确的匹配点可能超出网格的范围，导致匹配失败。然而，一些最近的研究出，Transformer在连续密集预测任务中缺乏空间上的归纳偏差，可能导致局部匹配结果的不一致。该模块的主要目的是通过引导注意力机制来实现对地标点周围区域的聚合，以便提高匹配的准确性和鲁棒性，从而更好地实现图像间的匹配。本研究的创新之处在于引入了点引导聚合模块，以维持局部一致性并避免干扰因素的影响，以及自适应缩放模块，有效处理局部特征匹配中的尺度变化。

2024-02-03 22:28:05 2742 1

原创【ACCV2022】MatchFormer: Interleaving Attention in Transformers for Feature Matching

主要工作：本文的主要工作是提出了一种新的层级提取和匹配变换器，称为MatchFormer，用于局部特征匹配任务。背景：局部特征匹配是一个在亚像素级别上计算密集的任务。传统的基于检测器和特征描述符的方法在低纹理场景中表现不佳，而基于CNN的方法虽然具有序列化的提取-匹配流程，但未能充分利用编码器的匹配能力，同时容易过度负担解码器进行匹配。研究方法：提出了一种新的层级提取和匹配变换器，MatchFormer。

2024-02-03 22:22:34 1894 1

原创【CVPR2021】LoFTR: Detector-Free Local Feature Matching with Transformers

论文链接：LoFTR: Detector-Free Local Feature Matching with Transformers | IEEE Conference Publication | IEEE Xplore代码：zju3dv/LoFTR: Code for "LoFTR: Detector-Free Local Feature Matching with Transformers", CVPR 2021, T-PAMI 2022 (github.com)We present a novel m

2024-02-03 22:16:49 1507 2

Prettybritany的博客