- 博客(16)
- 收藏
- 关注
原创 多模态学习(八):2022 TPAMI——U2Fusion: A Unified Unsupervised Image Fusion Network
本研究提出了一种新型的统一且无监督的端到端图像融合网络(U2Fusion),能够解决多模态、多曝光、多焦点等不同融合任务。通过特征提取和信息度量,U2Fusion自动估计源图像的重要性并生成自适应信息保留度,从而将不同融合任务统一到同一框架中。基于自适应保留度,网络通过保持融合结果与源图像之间的相似性进行训练,显著缓解了深度学习在图像融合中依赖真值标签和专用设计指标的核心障碍。通过避免多任务顺序训练导致的能力丢失,我们获得了适用于多种任务的统一模型。
2025-04-03 22:14:08
1020
原创 多模态论文学习(七):DenseFuse: A Fusion Approach to Infrared and Visible Images
在本文中,我们提出了一种新颖的深度学习架构,用于红外与可见光图像融合问题。与传统的卷积网络不同,我们的编码网络由卷积层、融合层和密集块组合而成,其中每一层的输出都与所有其他层相连。我们尝试使用这种架构在编码过程中从源图像中提取更多有用的特征。同时,我们设计了两个融合层(融合策略)来融合这些特征。最后,通过解码器重建融合图像。与现有的融合方法相比,所提出的融合方法在客观和主观评估中实现了最先进的性能。研究背景与问题定义。
2025-04-01 20:19:55
1038
原创 多模态融合学习(六)——2024TPAMI:CFNet: An infrared and visible image compression fusion network
这段文字描述了一篇关于红外与可见光图像融合的学术论文,提出了一种名为CFNet的压缩融合网络。这篇论文提出了一个创新的红外与可见光图像融合与压缩联合框架,利用VAE实现压缩,CNN与Transformer联合提取特征,并通过ROI导向的多通道损失优化比特分配。其核心贡献在于将压缩任务无缝融入融合流程,解决了传统方法的冗余和效率问题。技术上结合了生成模型(VAE)、卷积网络和注意力机制的优势。融合趋势:深度学习方法从视觉质量转向任务驱动,Transformer与CNN结合成主流。压缩趋势。
2025-03-31 12:21:08
1028
原创 多模态融合论文学习(五):2025《nature》-A dual-stream feature decomposition network with weight transformation论文详解
论文链接:https://www.nature.com/articles/s41598-025-92054-0目录一.摘要1.1 摘要翻译1.1 摘要解析二. Introduction2.1 Introduction翻译2.2 Introduction解析三.related work1. 基于深度学习的多模态图像融合(MMIF)2. 视觉任务中的Transformer四. 方法4.1 方法翻译4.2 方法解析五.实验5.1 实验翻译5.2 实验解析六.结论6.1 结论翻译6.2 结论解析 作为
2025-03-27 17:38:42
999
原创 多模态学习(四):可见光-红外图像配准:2025Visible–Infrared Image Alignment for UAVs: Benchmark and New Baseline论文详解
随着多传感器在无人机(UAVs)中的广泛使用,多模态信息处理已成为研究重点。在无人机目标检测和跟踪任务的学术研究中,研究人员通常将可见光-红外图像对的对齐作为预处理步骤。然而,在实际任务中,无人机获取的双模态图像对往往是未对齐的,这显著限制了下游任务的应用。目前,尚无公开可用的无人机多模态图像对齐数据集。本文提出了一个大规模的双模态图像对齐任务基准数据集,包含81,000对训练图像和15,000对测试图像对。同时,我们提出了一个基于Transformer的双模态图像对齐网络作为该基准的基线。首先,
2025-03-25 17:10:03
744
原创 多模态融合论文学习:(三) 2025CLIP详解
当前最先进的计算机视觉系统通常被训练来预测一组预先确定的目标类别。这种受限的监督方式限制了模型的泛化能力和适用性,因为如果想要识别新的视觉概念,就必须额外获取标注数据。相比之下,直接从关于图像的原始文本中学习是一种更具潜力的替代方案,它可以利用更广泛的数据来源来进行监督学习。本研究表明,仅通过一个简单的预训练任务——预测哪一张图片与哪一个文本描述匹配,就可以高效、可扩展地从头学习最先进(SOTA)的图像表示。我们使用从互联网收集的 4 亿对(图片、文本) 进行预训练。
2025-03-23 18:45:01
858
原创 多模态大模型(二)2025:最详细Vision Transformer论文详解
2.1 摘要部分及其翻译虽然 Transformer 架构已成为自然语言处理任务的事实标准,但它在计算机视觉领域的应用仍然相对有限。在视觉任务中,注意力机制通常是与卷积网络结合使用,或者用于替换卷积网络的部分组件,同时保持整体网络结构不变。我们展示了其实并不需要依赖 CNN,而是可以将纯 Transformer 直接应用于图像块(patch)序列,并在图像分类任务上取得非常好的表现。
2025-03-21 19:25:34
1068
原创 Bert代码详解
BertEncoder 由 num_hidden_layers 个 BertLayer 组成,逐层处理 hidden_states。支持 gradient_checkpointing 以节省显存。可以返回 hidden_states、attentions 和 past_key_values。适用于 BERT 及其变体(如 RoBERTa、DistilBERT)。Attention 可能是 Self-Attention 也可能包含 Cross-Attention。
2025-03-15 15:50:02
948
原创 解决RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:
一个核心思路解决报错RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:0,cpu等
2023-05-24 09:25:10
20438
8
原创 在 ‘lr_scheduler.pyi‘ 中找不到引用 ‘_LRScheduler‘
解决在 'lr_scheduler.pyi' 中找不到引用 '_LRScheduler'
2023-03-13 10:45:32
5336
6
原创 python相对导入错误,ValueError: attempted relative import beyond top-level package
python相对导入时出现的问题,以及导入自己写的.py文件时出现找不到model的问题的解决方式
2023-01-26 14:31:22
703
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人