
科研论文_learning
文章平均质量分 93
科研论文_learning
passion_up
总有人间一两风,填我十万八千梦。用于记录日常,欢迎交流。WeChat:flames_-
展开
-
回顾Transformer,并深入讲解替代方案Mamba原理(图解)
Mamba 是基于选择性状态空间模型的新型架构,通过动态调整矩阵参数和步长实现内容感知推理,结合并行扫描算法与硬件融合技术,突破 Transformer 的二次复杂度瓶颈。其采用 HiPPO 矩阵初始化捕捉长程依赖,离散化技术支持线性时间递归推理与卷积并行训练,在长文本生成任务中性能接近同规模 Transformer,且理论支持无限上下文长度。该模型通过动态参数设计和硬件协同优化,为低延迟推理场景提供高效解决方案,成为长序列建模领域的重要创新方向。原创 2025-03-17 23:50:54 · 1109 阅读 · 0 评论 -
SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer
本研究提出了一种基于跨域远程学习和 Swin Transformer 的新型通用图像融合框架,称为 SwinFusion。一方面,设计了注意力引导的跨域模块,以实现互补信息和全局交互的充分整合。更具体地说,所提出的方法涉及基于自注意力的域内融合单元和基于交叉注意力的域间融合单元,它们挖掘并集成同一域内和跨域的长依赖关系。通过远程依赖建模,网络能够全面实现特定领域的信息提取和跨领域互补信息集成,并从全局角度保持适当的表观强度。原创 2025-01-10 22:24:25 · 822 阅读 · 0 评论 -
A practical infrared and visible image fusion network based on progressive ..._译文
图像融合旨在将源图像的互补特征集成到单个融合图像中,更好地服务于人类视觉观察和机器视觉感知。然而,大多数现有的图像融合算法主要侧重于提高融合图像的视觉吸引力。尽管有一些语义驱动的方法考虑了下游应用程序的语义需求,但与特征级融合相比,它们都没有展示出图像级融合的潜力,特征级融合直接在多模态特征上完成高级视觉任务,而不是在多模态特征上完成高级视觉任务。在融合图像上。为了克服这些限制,本文提出了一种基于渐进语义注入和场景保真度约束的实用红外和可见光图像融合网络,称为 PSFusion。原创 2025-01-08 22:40:04 · 652 阅读 · 0 评论 -
A semantic-aware real-time infrared and visible image fusion network_译文_Jiayi Ma
红外与可见光图像融合旨在合成一幅融合后的图像,该图像不仅包含显著目标和丰富的纹理细节,还能促进高级视觉任务的实现。然而,现有的融合算法片面关注融合图像的视觉质量和统计指标,而忽略了高级视觉任务的需求。为了解决这些问题,本文在图像融合与高级视觉任务之间架起了桥梁,并提出了一种语义感知的实时图像融合网络(SeAFusion)。一方面,我们将图像融合模块与语义分割模块级联,并利用语义损失引导高级语义信息反馈到图像融合模块,从而有效提升融合图像在高级视觉任务中的性能。原创 2025-01-03 23:51:22 · 1254 阅读 · 0 评论 -
Semantics lead all: Towards unified image registration and fusion from a semantic perspective_译文
红外-可见光图像配准和融合是密切相关的过程,在统一的框架中实现协调配准和融合是一个有吸引力的问题。现有方法的配准精度无法满足某些场景下的融合需求,影响融合视觉性能。此外,作为图像预处理步骤,级联配准和融合后的网络速度不足以完成更高级的任务,从而限制了这些方法的可用性。为了解决上述问题,我们提出了一种使用语义主导的网络,称为 SemLA,能够以高效且鲁棒的方式统一配准和融合过程。我们的关键思想是在网络的所有阶段显式嵌入语义信息。原创 2025-01-01 22:48:12 · 932 阅读 · 0 评论 -
红外与可见光图像配准技术研究综述
李云红,刘宇栋,苏雪平,罗雪敏,姚 兰(西安工程大学 电子信息学院,陕西 西安710048摘要:多模态图像配准能提供比单模态图像配准更加丰富和全面的信息,红外与可见光图像配准作为 一种常见的多模态配准类型,在电力、遥感、军事以及人脸识别等领域具有重要的应用价值。首先介绍了红外与可见光图像配准的相关技术并阐述了配准中存在的难点与挑战,然后详细分析和总结了基 于区域、基于特征和基于深度学习 3。原创 2024-12-29 10:47:43 · 1907 阅读 · 0 评论 -
Geometric Estimation via Robust Subspace Recovery_译文ECCV2020
根据图像点对应关系进行几何估计是许多 3D 视觉问题的核心过程,通常通过随机采样技术来完成。在本文中,我们从优化的角度考虑该问题,利用点对应的内在线性结构来辅助估计。我们将传统方法推广为鲁棒方法,并扩展了之前对线性结构的分析来开发几种新算法。所提出的解决方案本质上是通过解决子空间恢复问题来识别内点来解决估计问题。对基本矩阵和单应性估计的真实图像数据集进行的实验证明了我们的方法在鲁棒性和准确性方面优于最先进的方法。原创 2024-12-12 23:52:53 · 1004 阅读 · 0 评论 -
SwinFusion: Cross-domain Long-range Learning,forGeneral Image Fusion via Swin Transformer_译文
本研究提出了一种基于跨域远程学习和 Swin Transformer 的新型通用图像融合框架,称为 SwinFusion。一方面,设计了注意力引导的跨域模块,以实现互补信息和全局交互的充分整合。更具体地说,所提出的方法涉及基于自注意力的域内融合单元和基于交叉注意力的域间融合单元,它们挖掘并集成同一域内和跨域的长依赖关系。通过长程依赖建模,网络能够全面实现特定领域的信息提取和跨领域互补信息集成,并从全局角度保持适当的表观强度。原创 2024-12-09 15:04:49 · 1152 阅读 · 0 评论 -
SDNet: A Versatile Squeeze-and-Decomposition Network for Real-Time Image Fusion __Hao Zhang CCF A
本文提出了一种压缩分解网络(SDNet)来实现实时多模态和数字摄影图像融合。首先,我们一般将多个融合问题转化为梯度和强度信息的提取和重建,并相应地设计一种通用形式的损失函数,该损失函数由强度项和梯度项组成。对于梯度项,我们引入了自适应决策块,根据像素尺度的纹理丰富度来决定梯度分布的优化目标,从而引导融合图像包含更丰富的纹理细节。对于强度项,我们调整每个强度损失项的权重,以改变来自不同图像的强度信息的比例,从而使其能够适应多个图像融合任务。其次,我们将压缩和分解的思想引入到图像融合中。原创 2024-12-08 00:09:37 · 1135 阅读 · 0 评论 -
An Overview of Multi-Task Learning in Deep Neural Networks
多任务学习(MTL)在机器学习的许多应用中都取得了成功,从自然语言处理和语音识别到计算机视觉和药物发现。本文旨在对MTL进行一般性概述,特别是在深度神经网络中的应用。它介绍了深度学习中MTL的两种最常用的方法,概述了相关文献,并讨论了最近的进展。特别地,它旨在帮助ML实践者应用MTL,通过阐明MTL的工作原理并提供选择适当辅助任务的指导原则。原创 2024-12-06 22:26:01 · 965 阅读 · 0 评论 -
Multimodal Few-Shot Learning with Frozen Language Models译文
当经过足够规模的训练时,自动回归语言模型在只需要几个例子的提示下就能表现出学习新语言任务的显著能力。在这里,我们提出了一种简单而有效的方法,将这种少量学习能力转移到多模态环境(视觉和语言)。使用对齐的图像和标题数据,我们训练了一个视觉编码器,将每个图像表示为连续嵌入的序列,这样一个预训练的、固定的语言模型就会用这个前缀提示生成适当的标题。由此产生的系统是一个多模态少镜头学习器,当以多个交错图像和文本嵌入序列为条件时,具有学习各种新任务的惊人能力。原创 2024-12-01 23:38:20 · 937 阅读 · 0 评论 -
Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics译文_CVPR
在本文中,我们观察到此类系统的性能很大程度上取决于每个任务损失之间的相对权重。手动调整这些权重是一个困难且昂贵的过程,使得多任务学习在实践中难以实现。我们提出了一种多任务深度学习的原则方法,通过考虑每个任务的同方差不确定性来权衡多个损失函数。这使我们能够在分类和回归设置中同时学习具有不同单位或尺度的各种数量。原创 2024-11-30 23:41:38 · 928 阅读 · 0 评论 -
GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask译文
深度多任务网络,即一个神经网络产生多个预测输出,可以比单任务网络提供更好的速度和性能,但正确的训练具有挑战性。我们提出了一种梯度归一化(GradNorm)算法,通过动态调整梯度大小来自动平衡深度多任务模型的训练。我们表明,对于各种网络架构,对于回归和分类任务,以及合成和真实数据集,与单任务网络、静态基线和其他自适应多任务损失平衡技术相比,GradNorm提高了准确性,并减少了跨多个任务的过拟合。GradNorm也匹配或超过穷举网格搜索方法的性能,尽管只涉及单个不对称超参数α。因此,曾经是一个乏味的搜索过程,原创 2024-11-30 19:32:50 · 1461 阅读 · 0 评论 -
Cross-stitch Networks for Multi-task Learning译文_
Cross-stitch Networks for Multi-task Learning原创 2024-11-26 00:47:56 · 1255 阅读 · 0 评论 -
End-to-End Multi-Task Learning with Attention译文 【CVPR】
End-to-End Multi-Task Learning with Attention 译文原创 2024-11-26 00:09:30 · 1179 阅读 · 0 评论 -
Image fusion meets deep learning: A survey and perspective_zhanghao 高被引译文J Ma
摘要图像融合是指从不同的源图像中提取和组合最有意义的信息,旨在生成一个更有信息量和有利于后续应用的单图像。深度学习的发展极大地推动了图像融合的发展,而神经网络强大的特征提取和重建能力使融合结果充满希望。最近,几种最新的深度学习技术使图像融合爆炸,例如生成对抗网络、自编码器等。然而,缺乏对不同融合场景的最新深度学习方法的全面审查和分析。为此,在本次调查中,我们首先介绍了图像融合的概念,并从采用的深度架构和融合场景的角度对方法进行了分类。然后,我们回顾了深度学习在各种类型的图像融合场景中的最新应用,包括数字原创 2024-11-24 23:58:25 · 696 阅读 · 0 评论 -
Chen_AdaMV-MoE_Adaptive_Multi-Task_Vision_Mixture-of-Experts 译文
摘要 稀疏激活的专家混合(MoE)正在成为多任务学习(MTL)的一个有前途的范例。 MoE 不是将多个任务的知识压缩到单个模型中,而是分离参数空间,仅利用给定任务类型及其输入的相关模型片段,从而提供稳定的 MTL 训练和超高效推理。然而,当前的 MoE 方法对所有任务采用固定的网络容量(例如,通常是两个专家)。它可能会导致简单任务的过度拟合或具有挑战性的场景的欠拟合,特别是当任务的复杂性显著不同时。在本文中,我们提出了一种用于多任务视觉识别的自适应 MoE 框架,称为 AdaMV-MoE。基于原创 2024-11-24 23:50:00 · 861 阅读 · 0 评论 -
MISA: Modality-Invariant and -Specific Representations forMultimodal Sentiment Analysis 译文
MISA:多模态情感分析的模态不变和特定表示摘要 多模态情感分析是一个活跃的研究领域,它利用多模态信号对用户生成的视频进行情感理解。解决这一任务的主要方法是开发复杂的融合技术。然而,信号的异构性造成了分配模态差距,带来了重大挑战。在本文中,我们的目标是学习有效的模态表示以帮助融合过程。我们提出了一个新颖的框架 MISA,它将每种模态投影到两个不同的子空间。第一个子空间是模态不变的,其中跨模态的表示学习它们的共性并减少模态差距。第二个子空间是特定于模态的,它是每种模态私有的,并捕获它们的特征。原创 2024-11-24 23:52:54 · 1188 阅读 · 0 评论 -
Which Tasks Should Be Learned Together in Multi-task Learning? 译文
摘要许多计算机视觉应用需要实时解决多个任务。可以使用多任务学习来训练神经网络同时解决多个任务。这可以节省推理时的计算量,因为只需要评估单个网络。不幸的是,这通常会导致整体性能较差,因为任务目标可能会相互竞争,从而提出了一个问题:在采用多任务学习时,哪些任务应该和不应该在一个网络中一起学习?我们研究了几种不同学习环境中的任务合作和竞争,并提出了一个将任务分配给几个神经网络的框架,使得合作任务由同一神经网络计算,而竞争任务由不同网络计算。我们的框架提供了时间精度权衡,并且可以使用比单个大型多任务神经网络和原创 2024-11-24 23:45:00 · 671 阅读 · 0 评论 -
RCVS:A Unifed Registration and FusionFramework for Video Streams 译文
红外和可见光跨模态配准与融合可以生成更全面的物体和场景信息表示。先前的框架主要侧重于解决模态差异以及保留不同模态信息对不同静态图像对之间的配准和融合任务性能的影响。然而,这些框架忽略了在现实世界设备上的实际部署,特别是在视频流的背景下。因此,生成的视频流在配准和融合方面通常会出现不稳定的情况,其特征是融合伪影和帧间抖动。鉴于这些考虑,本文提出了一种统一的视频流配准和融合方案,称为 RCVS。它利用强大的匹配器和时空校准模块来实现视频序列的稳定配准。随后,RCVS 结合快速轻量级融合网络,为红外和可见光成像提原创 2024-11-24 23:47:12 · 900 阅读 · 0 评论 -
读Image fusion meets deep learning小记
读Image fusion meets deep learning小记原创 2024-11-17 21:25:12 · 928 阅读 · 0 评论 -
读RCVS小记_24.11.14
在医学图像配准中,比如在乳腺 X 光图像配准中,由于乳房组织的密度不同,可能会导致局部光照和对比度的差异。通过寻找 NCC 值最大的窗口位置,就可以确定待配准图像中与参考图像区域最匹配的部分,从而实现图像在空间位置上的配准。例如,在拼接全景图像时,需要将多张不同角度拍摄的图像对齐到一个共同的坐标系下,单应性变换模型 H0 可以帮助确定图像之间的变换关系,从而实现无缝拼接。是指从输入数据到输出结果的整个过程中,所有的处理步骤都被整合在一个统一的模型或系统中,无需中间的人工干预或独立的处理模块。原创 2024-11-15 21:56:48 · 1136 阅读 · 0 评论