自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 收藏
  • 关注

原创 《DLEN:用于低光图像增强的双域双分支Transformer》

低光图像增强(LLE)旨在改善在低光条件下拍摄的图像的视觉质量,这些图像通常面临低亮度、低对比度、噪声和色彩失真等问题。这些问题会影响计算机视觉任务的性能,例如物体检测、面部识别和自动驾驶。传统的增强技术,如多尺度融合和直方图均衡,往往无法保留细节,并且在复杂光照条件下难以保持增强图像的自然外观。尽管Retinex理论为图像分解提供了基础,但它通常会放大噪声,导致图像质量不理想。本文提出了双光增强网络(DLEN),这是一种新型的架构,结合了两种不同的注意力机制,考虑了空间和频率域。

2025-02-24 16:52:37 1071

原创 《TransMamba:一种混合Transformer-Mamba网络用于单图像去雨》学习笔记

现有的去雨 Transformer 采用自注意力机制,通过固定范围的窗口或沿通道维度的方式来操作,这限制了非局部感受野的利用。为了解决这个问题,我们提出了一种新颖的双分支混合Transformer-Mamba网络,命名为TransMamba,旨在有效捕捉长程的与雨滴相关的依赖关系。基于雨滴退化和背景的不同光谱域特征的先验知识,我们在第一个分支上设计了一个光谱带状Transformer模块。在光谱域的通道维度上执行自注意力操作,以增强建模长程依赖的能力。为了增强频率特定信息,我们提出了一种光谱增强的前馈模块。

2025-02-24 13:56:39 1104

原创 《FFTformer:基于频域的高效Transformer用于高质量图像去模糊》

我们提出了一种有效且高效的方法,探索 Transformers 在频域中的属性,用于高质量图像去模糊。我们的方法受卷积定理的启发,即两个信号在空间域中的相关性或卷积等价于它们在频域中的逐元素乘积。这激发我们开发了一种高效的基于频域的自注意力求解器(FSAS),通过逐元素乘法操作估计缩放点积注意力,而不是在空间域中进行矩阵乘法。此外,我们注意到,仅仅使用传统的前馈网络(FFN)并不能生成良好的去模糊结果。

2025-02-23 21:27:33 1296

原创 《Restormer:高效Transformer架构用于高分辨率图像恢复》学习笔记

由于卷积神经网络(CNN)能够从大规模数据中学习出具有良好泛化性的图像先验,因此这些模型已经被广泛应用于图像恢复及相关任务。最近,另一类神经网络架构——Transformer,在自然语言处理和高层次视觉任务上展现出了显著的性能提升。虽然 Transformer 模型在缓解CNN的缺点(例如有限的感受野和对输入内容的适应性差)方面有优势,但其计算复杂度随着空间分辨率的增加呈平方级增长,因此在涉及高分辨率图像的大多数图像恢复任务中应用起来非常困难。

2025-02-23 18:35:31 1261

原创 《MB-TaylorFormer V2:基于泰勒公式扩展的改进多分支线性Transformer用于图像修复》学习笔记

近年来,由于Transformer网络具有全局感受野和适应输入的能力,它们在图像修复领域表现出了卓越的性能。然而,Softmax注意力机制的二次计算复杂度对其在图像修复任务中的广泛应用,尤其是对于高分辨率图像,构成了显著的限制。为了解决这一挑战,我们提出了一种新的Transformer变体。该变体利用泰勒展开来近似Softmax注意力,并采用范数保持映射的概念来近似一阶泰勒展开的余项,从而实现了线性计算复杂度。1)各种大小的感受野;2)多级语义信息;3)灵活的感受野形状;4)加速训练和推理速度。

2025-02-23 14:20:21 949 1

原创 《MB-TaylorFormer:通过泰勒公式扩展的多分支高效Transformer用于图像去雾》学习笔记

近年来,Transformer 网络由于其全局感受野和对输入的适应性,开始在计算机视觉领域逐渐取代纯卷积神经网络(CNN)。然而,softmax 注意力的二次计算复杂度限制了其在图像去雾任务中的广泛应用,特别是在高分辨率图像上。为了解决这个问题,我们提出了一种新的 Transformer 变体,该变体利用泰勒展开近似 softmax 注意力,并实现了线性计算复杂度。我们还提出了一个多尺度注意力精细化模块,作为补充,以修正泰勒展开的误差。

2025-02-22 20:30:06 696

原创 《Real-IAD: 用于基准测试多功能工业异常检测的真实世界多视角数据集》学习笔记

工业异常检测(IAD)已引起了广泛关注并经历了快速发展。然而,近期IAD方法的发展由于数据集的局限性遇到了一些困难。一方面,许多最先进的方法在主流数据集(如MVTec)上的表现已经趋于饱和(AUROC超过99%),不同方法之间的差异难以区分,这导致了公共数据集与实际应用场景之间的显著差距。另一方面,各种新型实际异常检测设置的研究受限于数据集的规模,评估结果可能存在过拟合的风险。

2025-02-19 22:14:49 1205

原创 AdaAttN 代码复现

AdaAttN 代码复现

2025-02-19 14:56:12 294

原创 AdaIN 代码复现

AdaIN 代码复现

2025-02-18 21:31:32 207

原创 《StyleID:一种无训练的方法将大规模扩散模型适配于风格迁移》

尽管扩散模型具有令人印象深刻的生成能力,现有的基于扩散模型的风格迁移方法仍然需要在推理阶段进行优化(例如,微调或风格的文本反演),这既费时又未能充分利用大规模扩散模型的生成能力。为了解决这些问题,我们提出了一种基于预训练的大规模扩散模型的全新艺术风格迁移方法,并且不需要任何优化。具体来说,我们操作自注意力层的特征,模仿交叉注意力机制的工作方式;在生成过程中,将内容的键(key)和值(value)替换为风格图像的键和值。1)通过将相似的风格转移到相似的图像区域,保持内容的完整性;

2025-02-18 19:17:14 1437

原创 Mamba-ST 代码复现

MambaST 代码复现

2025-02-18 13:38:25 219

原创 《StyleDiffusion:通过扩散模型实现可控的解耦风格迁移》学习笔记

内容和风格(C-S)解耦是风格迁移中的一个基本问题和关键挑战。现有的方法基于显式定义(例如Gram矩阵)或隐式学习(例如GANs),这些方法既不具备可解释性,也不容易控制,导致了纠缠的表示和不尽如人意的结果。在本文中,我们提出了一种新的C-S解耦框架,用于风格迁移,且无需使用之前的假设。关键的洞察是显式地提取内容信息,并隐式地学习互补的风格信息,从而实现可解释和可控的C-S解耦与风格迁移。我们引入了一种基于CLIP的简洁且有效的风格解耦损失,并结合风格重建先验,在CLIP图像空间中进行C-S解耦。

2025-02-17 20:15:19 1004

原创 《Mamba-ST:面向高效风格迁移的状态空间模型》学习笔记

风格迁移的目标是:给定内容图像与风格源图像,生成一张保留原内容但具有风格源艺术表现的新图像。当前主流架构多采用Transformer或扩散模型,但存在高计算负担问题。具体而言,Transformer的自注意力与跨注意力层内存占用大,扩散模型推理时间长。为克服这些问题,本文提出一种基于新兴状态空间模型(SSM)的创新架构——Mamba-ST。我们改造Mamba的线性方程以模拟跨注意力层的行为(将两个独立嵌入合并为单一输出),同时大幅降低内存占用与时间复杂度。

2025-02-17 13:45:47 741

原创 《TSP6K数据集进行交通场景解析》学习笔记

交通场景感知是计算机视觉中的一个关键任务,对于实现智能城市至关重要。到目前为止,大多数现有数据集都集中在自动驾驶场景上。我们观察到,在这些驾驶数据集上训练的模型通常在交通监控场景中表现不佳。然而,在提高交通监控场景理解方面的努力较少,主要是由于缺乏专门的数据集。为了填补这一空白,我们引入了一个专门的交通监控数据集,命名为TSP6K,包含来自交通监控场景的图像,并且具有高质量的像素级和实例级注释。TSP6K数据集捕捉了比现有驾驶场景更为拥挤的交通场景,交通参与者数量是现有驾驶场景的几倍。

2025-02-15 21:37:41 1159

原创 《RCooper: 一个真实世界的大规模道路边协同感知数据集》学习笔记

道路边感知的价值,能够扩展自动驾驶和交通管理的边界,近年来逐渐变得更加突出并得到认可。然而,现有的道路边感知方法仅关注单一基础设施传感器系统,因其有限的感知范围和盲区,无法实现对交通区域的全面理解。为了实现高质量的道路边感知,我们需要道路协同感知(RCooper)来实现对限制交通区域的实用覆盖。RCooper面临着特定领域的挑战,但由于缺乏数据集,进一步的探索受到限制。因此,我们发布了第一个真实世界的大规模RCooper数据集,以促进实际道路协同感知研究,包括检测和跟踪。该。

2025-02-15 20:01:33 1096

原创 《AdaAttN:重新审视任意风格迁移中的注意力机制》学习笔记

快速的任意风格迁移(Arbitrary Neural Style Transfer)因其灵活性,可以实现各种应用,因此受到了学术界、工业界和艺术界的广泛关注。现有的解决方案要么是在不考虑特征分布的情况下,将深层的风格特征与内容特征进行融合,要么是根据风格自适应地规范化深层内容特征,使其全局统计量匹配。虽然这些方法有效,但它们通常没有充分利用浅层特征,并且在局部特征统计上的考虑不够,容易导致不自然的输出,且局部区域会产生令人不悦的失真。为了解决这个问题,本文提出了一种新的注意力和归一化模块,命名为。

2025-02-13 18:30:18 1169

原创 《通过DINO语义引导进行可变形单次人脸风格化》学习笔记

本文解决了单次人脸风格化中复杂的问题,重点考虑了外观和结构的同时处理,而以往的方法在这方面存在不足。我们探索了一种具有变形感知的人脸风格化方法,这不同于传统的单图像风格参考,而是选择了一个真实风格图像对。我们方法的核心是利用自监督的视觉Transformer,特别是DINO-ViT,建立了一个在真实图像和风格图像领域中一致且鲁棒的人脸结构表示。我们的风格化过程从将StyleGAN生成器调整为变形感知开始,通过集成空间变换网络(STN)。

2025-02-13 00:17:29 1012

原创 《IP-Adapter: 适用于文本到图像扩散模型的文本兼容图像提示适配器》学习笔记

近年来,基于大规模文本到图像扩散模型的强大能力,生成高质量图像的生成能力令人印象深刻。然而,使用文本提示生成所需图像非常棘手,因为这通常涉及复杂的提示工程。图像提示作为文本提示的替代方案逐渐受到关注,正如俗话所说:“一图胜千言”。尽管现有的直接从预训练模型微调的方法是有效的,但它们需要大量的计算资源,且与其他基础模型、文本提示和结构控制不兼容。在本文中,我们提出了IP-Adapter,一个有效且轻量的适配器,用于使预训练的文本到图像扩散模型具备图像提示的能力。

2025-02-10 17:55:51 1301

原创 《StyTr²:基于 Transformer 的图像风格迁移》学习笔记

图像风格迁移的目标是渲染一幅图像,使其具有由风格参考引导的艺术特征,同时保持原始内容。由于卷积神经网络(CNN)具有局部性,提取和维护输入图像的全局信息变得困难。因此,传统的神经风格迁移方法面临着内容表示偏差的问题。为了应对这一关键问题,本文提出了一种基于Transformer 的图像风格迁移方法,称为StyTr²。与其他视觉任务的视觉变换器不同,StyTr²包含两个不同的 Transformer 编码器,分别生成内容和风格的特定领域序列。

2025-02-10 16:05:18 1475

原创 《DEADiff:一种具有解耦表示高效的风格化扩散模型》

基于扩散的文本到图像模型在传递参考风格方面具有巨大的潜力。然而,当前基于编码器的方法在转换风格时显著削弱了文本到图像模型的文本可控性。本文提出了DEADiff来解决这个问题,采用了以下两种策略:1)一种解耦参考图像风格与语义的机制。首先通过Q-Former提取解耦的特征表示,Q-Former根据不同的文本描述进行指导。然后,这些表示被注入到交叉注意力层的互斥子集,以实现更好的解耦。2)一种非重建学习方法。

2025-02-09 21:50:18 1626

原创 IR_SDE 代码复现

IR_SDE 代码复现

2025-02-07 17:48:06 280

原创 VmambaIR 代码复现

创建文件 Deraining.yml。创建文件夹 Options。

2025-02-07 11:16:10 252

原创 MSPFN 代码复现

MSPFN 代码复现

2025-02-07 00:08:41 313

原创 DiffIR 代码复现

【代码】DiffIR 代码复现。

2025-02-06 19:37:23 284 2

原创 Restormer 代码复现

Restormer 模型复现

2025-02-06 00:25:26 369

原创 MPRNet 复现

按照子文件夹内的 ,yml 文件设置数据集位置。卸掉 Pillow 并安装对应版本。运行 train.py 文件。降级 imageio 库。下载预训练模型并上传至。

2025-02-04 01:47:36 308

原创 MambaIR 代码复现

复制下面内容替换 requirements.txt,之后执行。首先,修改模型对应的 yml 文件,yml 文件路径如下。本次仅使用 MambaIR_guassian15 模型。存放 train 和 test 的代码。修改 .yml 文件内的数据集路径。用来存放数据集的位置。

2025-02-03 23:00:59 541 6

原创 《基于单中心损失监督的频率感知判别特征学习用于人脸伪造检测 》学习笔记

为了解决以往方法在判别特征学习和频率信息挖掘中的问题,我们提出了一种频率感知的判别特征学习框架。正如图所示,我们的框架同时从RGB域和频率域提取特征,并在框架的早期阶段将其融合。经过特征嵌入后,得到高级表示。框架的最后部分是一个分类器,用于输出输入样本的预测结果。频率线索的挖掘通过我们的AFFGM模块来实现。我们通过简单的逐点卷积块将频率域特征与RGB域特征融合,这有助于减少参数和计算开销。

2025-02-01 13:30:16 943

原创 《从因果关系的角度学习失真不变表示以用于图像恢复》学习笔记

近年来,我们见证了深度神经网络(DNNs)在图像恢复领域的巨大进步。然而,一个关键的局限性是它们无法很好地泛化到具有不同程度或类型的真实世界退化。在本文中,我们首次从因果关系的角度提出了一种新的图像恢复训练策略,以提高DNNs对未知退化的泛化能力。我们的方法称为失真不变表示学习(Distortion Invariant representation Learning, DIL)将每种失真类型和程度视为一个特定的混杂因子(confounder),并通过消除每种退化的有害混杂效应来学习失真不变表示。

2025-01-29 23:06:59 1152

原创 《MPRnet》学习笔记

图像恢复任务需要在恢复图像时实现空间细节与高级上下文信息之间的复杂平衡。本文提出了一种新颖的协同设计,能够在恢复过程中优化平衡这些相互竞争的目标。我们的主要提议是一个多阶段架构,通过逐步学习退化输入的恢复函数,将整体恢复过程分解为更易管理的步骤。具体来说,我们的模型首先使用编码器-解码器架构学习上下文化特征,随后将这些特征与一个保持局部信息的高分辨率分支相结合。在每个阶段,我们引入了一种新颖的每像素自适应设计,利用现场监督注意力来重新加权局部特征。多阶段架构的一个关键成分是不同阶段之间的信息交换。

2025-01-28 21:45:38 1270

原创 《MSFFCT:多尺度特征融合通道 Transformer引导热图像超分辨率》学习笔记

热成像利用红外光谱,在低光照、遮挡和恶劣天气等具有挑战性的环境条件下,提供了一个与可见光谱(VIS)成像互补的强大选择。然而,由于其较低的空间分辨率,热成像在计算机视觉任务中的广泛应用受到了限制。为了解决这一问题,本文提出了一种名为基于通道变换器的多尺度特征融合框架(MSFFCT)的新方法,用于引导热图像超分辨率(Guided Thermal Image Super-Resolution, GTISR)。GTISR 旨在解决热成像分辨率受限的问题。

2025-01-27 15:46:47 968 2

原创 《FreqMamba: 从频率角度审视图像去雨问题》学习笔记

由于雨条纹的影响,图像通常会丢失感知所需的重要频率信息,图像去雨的目标是解决这一问题,这需要对全局和局部退化进行建模。最近的研究显示,Mamba在利用局部相关性来感知全局和局部信息方面具有高效性和有效性。然而,目前很少有研究尝试将Mamba与频率分析结合起来应用于图像去雨,这限制了其感知基于频率建模(例如傅里叶变换)的全局退化能力。在本文中,我们提出了一种名为FreqMamba的高效且有效的范式,它利用Mamba和频率分析之间的互补性来解决图像去雨问题。通过频率带扩展来挖掘频率相关性,并。

2025-01-26 00:15:18 1210

原创 《边界感知的分而治之方法:基于扩散模型的无监督阴影去除解决方案》学习笔记

近年来,深度学习方法在阴影去除任务中取得了卓越的成果。然而,大多数这些有监督方法依赖于在大量阴影与无阴影的成对图像上进行训练,这需要繁重的标注工作,并可能导致模型泛化性能较差。实际上,阴影只会对图像形成部分退化,而非阴影区域提供了丰富的结构信息,潜在地适合用于无监督学习。在本文中,我们提出了一种基于扩散模型的无监督阴影去除新方法,该方法分别对阴影区域、非阴影区域及其边界区域进行建模。我们使用一个预训练的无条件扩散模型,并融合非受损区域的信息以生成自然的无阴影图像。

2025-01-25 20:36:34 800

原创 《DiffIR:用于图像修复的高效扩散模型》学习笔记

扩散模型(Diffusion Model,DM)通过将图像合成过程建模为去噪网络的逐步应用,已实现了SOTA(state-of-the-art,最先进)的性能。然而,与图像合成不同,图像修复(Image Restoration,IR)需要强约束以生成与真实图像(ground-truth)一致的结果。因此,对于IR任务,传统DM需要在大型模型上运行大量迭代来估计整个图像或特征图,这种方法效率较低。为了解决这一问题,我们提出了一种高效的用于IR的扩散模型(DiffIR),该模型由紧凑的IR先验提取网络。

2025-01-24 22:06:52 2011

原创 《SwinIR:使用Swin-Transformer图像恢复》学习笔记

图像修复是一个长期存在的低级视觉问题,旨在从低质量图像(例如,降采样、噪声污染和压缩的图像)中恢复高质量图像。虽然最先进的图像修复方法大多基于卷积神经网络(CNN),但很少有研究尝试使用在高级视觉任务中表现出色的Transformer模型。在本文中,我们提出了一种基于Swin Transformer的强基线模型——SwinIR,用于图像修复。浅层特征提取深层特征提取和高质量图像重建。

2025-01-23 23:10:12 1613

原创 论文投稿(个人学习)

这是审稿人对论文发表与否的总体建议,通常包含几个等级,用来反映论文质量和是否值得发表。

2025-01-23 10:09:24 165

原创 《FMambaIR:一种基于混合状态空间模型和频域的方法用于图像恢复》学习笔记

随着深度学习的发展,图像恢复领域取得了显著的进展。目前的图像恢复方法主要依赖于卷积神经网络(CNN)和Transformer来获取多尺度特征信息。然而,这些方法在特征提取过程中很少有效地结合频域信息,从而限制了其在图像恢复中的表现。此外,几乎没有方法将Mamba与傅里叶频域相结合进行图像恢复,这限制了Mamba在频域上感知全局退化的能力。因此,本文提出了一种新的图像恢复模型FMambaIR,该模型利用频域和Mamba的互补性进行图像恢复。FMambaIR的核心是F-Mamba块。

2025-01-18 21:25:52 1775

原创 《MambaIR:一种基于状态空间模型的简单图像修复基线方法》学习笔记

近年来,图像修复取得了显著进展,这主要得益于现代深度神经网络(如CNN和Transformers)的发展。然而,现有的修复骨干网络在实际应用中往往面临全局感受野与高效计算之间的矛盾。最近,选择性结构化状态空间模型(SelectiveStructuredStateSpaceModel),尤其是改进版本Mamba,在长距离依赖建模方面表现出巨大的潜力,并且其复杂度为线性级别,这为解决上述矛盾提供了一种可能。

2025-01-18 19:03:48 1334

原创 VAR 视觉自回归模型复现代码

VAR 视觉自回归模型的代码复现

2025-01-02 23:54:19 1069 6

原创 损失函数汇总(持续更新)

交叉熵损失()主要用于分类任务。它衡量了预测的类别分布与真实类别分布之间的差异。交叉熵损失越小,说明模型的预测分布越接近真实分布。

2025-01-02 17:38:55 192

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除