- 博客(89)
- 收藏
- 关注
原创 图像修复-CVPR2021-恶劣天气图像修复-TransWeather: Transformer-based Restoration of Images Degraded...
TransWeather 提出了一种基于 Transformer 的端到端模型,采用 Intra-Patch Transformer 结构增强局部注意力,并引入可学习的天气类型嵌入,仅用单个编码器和解码器即可高效去除多种恶劣天气条件,在多个数据集上显著超越现有方法。
2025-03-23 20:44:13
955
原创 深度学习模型组件之优化器—AdaBelief:结合Adam和SGD优点的自适应优化器
在深度学习模型的训练过程中,优化器的选择对模型的性能和收敛速度起着至关重要的作用。传统的优化器如随机梯度下降(SGD)和Adam在许多场景中表现良好,但它们也存在一些局限性,例如可能陷入局部最优或收敛不稳定。为了解决这些问题,研究者提出了AdaBelief优化器,它结合了Adam和SGD的优点,根据梯度方向上的“信念”来调整训练步长,实现了快速收敛和良好的泛化能力。
2025-03-09 16:44:57
886
原创 深度学习模型组件之优化器—Lookahead:通过“快慢”两组优化器协同工作,提升训练稳定性
在深度学习模型的训练过程中,优化算法的选择对模型的性能和收敛速度起着至关重要的作用。传统优化器如随机梯度下降(SGD)和Adam在许多场景中表现良好,但它们也存在一些局限性,如可能陷入局部最优或收敛不稳定。为了解决这些问题,研究者提出了Lookahead优化器,它通过“快/慢”两组优化器的协同工作,提升了训练的稳定性和效率。
2025-03-09 16:11:47
888
原创 深度学习模型组件之优化器--Nadam结合 Adam 与 Nesterov 加速(Nadam)
近年来,深度学习模型的训练离不开高效的优化算法。从最基础的随机梯度下降(SGD)到 Momentum、AdaGrad、RMSProp,再到 Adam,优化算法不断演进以适应大规模、高维非凸问题的挑战。Nadam(Nesterov-accelerated Adaptive Moment Estimation) 正是在这一发展过程中出现的,它在 Adam 的基础上引入了 Nesterov 加速技术,从而融合了自适应学习率和预见性动量的优点。
2025-03-09 15:48:31
911
原创 深度学习模型组件之优化器--自适应学习率优化方法(Adadelta、Adam、AdamW)
在深度学习中,优化器是训练过程中不可或缺的一部分。不同的优化器通过调整学习率和更新规则来帮助模型收敛得更快、更好。本文将详细介绍三种常用的优化器:Adadelta、Adam 和 AdamW,并展示它们的核心公式、工作原理、优缺点以及应用场景。
2025-03-08 17:29:55
899
原创 深度学习模型组件之优化器-自适应学习率优化方法(Adagrad、RMSprop)
在深度学习模型的训练过程中,选择合适的优化算法对于模型的收敛速度和性能至关重要。自适应学习率优化方法通过根据梯度信息动态调整学习率,能够更有效地处理稀疏数据和非平稳目标函数。本文将介绍两种常用的自适应学习率优化方法:Adagrad(Adaptive Gradient Algorithm)和RMSprop(Root Mean Square Propagation),并提供相应的代码示例。
2025-03-08 13:26:55
821
原创 深度学习模型组件之优化器--动量优化方法(带动量的 SGD 与 Nesterov 加速梯度)
在深度学习模型的训练过程中,选择合适的优化算法对于模型的收敛速度和性能至关重要。动量优化方法在传统优化算法的基础上,通过引入动量项,加速收敛并减小震荡。本文将介绍两种常用的动量优化方法:带动量的随机梯度下降(SGD with Momentum)和 Nesterov 加速梯度(Nesterov Accelerated Gradient, NAG),并将它们与基础优化方法进行对比。
2025-03-07 17:39:02
1158
原创 深度学习模型组件之优化器--基础优化器(GD、SGD、Mini-batch SGD)
在深度学习的训练过程中,优化器扮演着至关重要的角色。如何高效地寻找损失函数的最小值,直接影响模型的训练速度和最终性能。今天我们就来详细探讨三种基础优化方法:梯度下降(Gradient Descent, GD)、随机梯度下降(Stochastic Gradient Descent, SGD)以及小批量梯度下降(Mini-batch SGD)。
2025-03-07 17:15:29
786
原创 深度学习模型组件-RevNorm-可逆归一化(Reversible Normalization)
深度学习中的归一化方法,如 Batch Normalization(BN)和 Layer Normalization(LN),已经广泛用于稳定训练和加速收敛。然而,这些方法通常需要额外的计算开销,并可能导致信息损失。2022 年,研究人员提出了一种新的归一化方法——RevNorm(Reversible Normalization),旨在减少归一化过程对信息的破坏,同时保持模型的稳定性和可逆性。
2025-03-06 23:07:29
1139
原创 深度学习模型组件-InstanceNorm-实例归一化(Instance Normalization)
Instance Normalization(实例归一化,简称InstanceNorm)是一种用于深度学习模型的归一化技术,最早由 Dmitry Ulyanov 等人 在 2016 年的论文`《Instance Normalization: The Missing Ingredient for Fast Stylization》`中提出。它最初是为风格迁移(Style Transfer)任务设计的,但后来被广泛应用于生成对抗网络(GAN)、计算机视觉等领域。
2025-03-06 09:41:26
971
原创 深度学习模型组件-LayerNorm-层归一化(Layer Normalization, LayerNorm)
层归一化(Layer Normalization,简称 LayerNorm)是一种用于深度学习的归一化技术,由 Ba, Kiros, and Hinton在 2016 年提出。它的主要目的是解决批归一化(Batch Normalization, BN)在小批量(mini-batch)训练或循环神经网络(RNN)中的局限性。
2025-03-05 16:59:20
1193
原创 深度学习模型组件-AdaIN-自适应实例归一化(Adaptive Instance Normalization, AdaIN)
自适应实例归一化(AdaIN)是一种用于风格迁移(Style Transfer)和图像生成的归一化方法,由 Huang & Belongie在 2017 年提出。其核心思想是让目标风格图像的统计信息(均值和标准差)直接影响内容图像的特征,从而实现风格转换。AdaIN 主要用于 风格化生成任务,如 StyleGAN 和图像风格迁移(Style Transfer)等。
2025-03-05 16:32:49
824
原创 图像生成-ICCV2019-SinGAN: Learning a Generative Model from a Single Natural Image
SinGAN 通过多尺度全卷积 GAN 金字塔结构,从单张自然图像中学习内部 patch 分布,无需条件输入即可生成多样化、高质量的新图像,并适用于广泛的图像处理任务。
2025-03-04 17:16:39
1145
原创 图像超分-CVPR2022-Efficient and Degradation-Adaptive Network for Real-World Image Super-Resolution
本文提出了一种高效且适应退化的超分辨率网络(DASR),针对真实世界图像超分辨率任务中复杂未知的退化情况和计算资源受限的问题,创新性地设计了一个由轻量级回归网络预测图像退化参数的机制,并结合多个具有相同拓扑的卷积专家网络,通过非线性混合专家方法动态生成网络参数,实现对不同退化图像的自适应处理;同时,利用多专家的联合优化显著增强了模型对多样退化情况的适应能力,并在推理阶段通过仅选择一个专家网络进行计算,保证了推理效率,最终实现了在复杂退化条件下兼顾效果与效率的真实图像超分辨率解决方案。
2025-01-27 12:04:21
925
原创 图像修复-CVPR2023-Comprehensive and Delicate An Efficient Transformer for Image Restoration
提出了一种高效的图像修复Transformer,通过捕捉超像素级的全局依赖性并将其传递到像素级,来提高计算效率。核心方法包括两个神经模块模块(CA)通过特征聚合和注意力计算高效地捕捉超像素级的全局依赖,而双适应神经模块(DA)则通过双重结构将超像素的全局信息适应性地传递到每个:凝聚注意力神经像素
2024-12-04 14:40:28
1269
原创 图像修复-CVPR2024-ResFormer Scaling ViTs with Multi-Resolution Training
ResFormer 通过多分辨率训练、尺度一致性损失和全局-局部位置编码策略提升模型在不同分辨率下的适应性。多分辨率训练增强对未见过分辨率的适应,尺度一致性损失确保不同尺度信息一致,全局-局部位置编码策略帮助模型平滑过渡到新分辨率,提升了模型的鲁棒性。
2024-12-04 14:32:39
936
原创 图像修复-CVPR2024-AST-Adaptive Sparse Transformer with Attentive Feature Refinement for ImageRestoration
Adaptive Sparse Transformer (AST) 通过减少图像恢复过程中无关区域的噪声干扰和特征冗余,实现更高效的图像清晰度恢复。AST 包含两个关键设计:自适应稀疏自注意力(ASSA)和 特征精炼前馈网络(FRFN)。
2024-11-10 10:48:19
2355
4
原创 图像修复-CVPR2023-DRSformer-Learning A Sparse Transformer Network for Effective Image Deraining
DRSformer通过自适应 Top-k 选择、自注意力的多尺度前馈网络和混合专家特征补偿器,实现了有效的特征聚合和协同优化,以提升图像去雨效果。
2024-11-09 16:01:35
1708
4
原创 图像修复-CVPR2023-Efficient and Explicit Modelling of Image Hierarchies for Image Restoration
本文提出了一种基于锚条纹自注意力的GRL网络架构,通过引入锚条纹自注意力机制平衡自注意力的空间和时间复杂度,并结合窗口自注意力和通道注意力增强卷积,在全局、区域和局部范围内显式建模图像的层次结构,从而提升了图像恢复任务的性能。
2024-11-07 13:12:43
1120
原创 图像修复-CVPR2022-Restormer Efficient Transformer for High-Resolution Image Restoration
Restormer 是一个高效的 Transformer 模型,通过改进其关键组件,克服了传统 Transformer 在处理高分辨率图像时的计算瓶颈,并在多个图像恢复任务中表现出色
2024-11-07 10:38:39
1062
原创 盲超分-DASR-Unsupervised Degradation Representation Learning for Blind Super-Resolution
核心思想是解决传统超分辨率模型在处理未知的、复杂的降质条件下表现不佳的问题。主要通过无监督方式学习降质表示(`Degradation Representation`),避免了直接进行降质估计,进而提升在未知降质条件下的超分辨率(SR)性能。
2024-10-14 17:41:23
733
原创 图像修复-SwinIR: Image Restoration Using Swin Transformer
SwinIR是一个专门用于图像修复任务的基线模型,它基于Swin Transformer架构。相比于基于卷积神经网络的传统方法,SwinIR利用了Transformer在高层次视觉任务中的优异表现。
2024-10-13 10:22:29
1321
原创 风格迁移-StyTr 2 : Image Style Transfer with Transformers
StyTr的核心创新在于将Transformer应用到图像风格迁移任务中。传统的风格迁移方法多基于卷积神经网络(CNN),而StyTr引入了Transformer的注意力机制,能够捕捉图像的全局依赖关系,并在迁移过程中实现更细腻的风格融合。
2024-10-11 09:58:10
1619
2
原创 盲超分-元学习和KernelGAN结合-MetaKernelGAN-Meta-Learned Kernel For Blind Super-Resolution Kernel Estimation
MetaKernelGAN通过结合元学习与KernelGAN的方法,实现了对模糊核的有效估计和高质量图像的恢复,从而有效解决了盲超分辨率问题。
2024-10-09 20:54:54
1186
原创 5、盲超分-KernelGAN
KernelGAN的主要创新点在于它引入了一个(Internal GAN),用于解决(Blind Super-Resolution)中的卷积核估计问题。
2024-10-04 10:36:47
1218
原创 图像修复领域-CVPR2024-Improving Image Restoration through Removing Degradations in Textual Representations
Improving Image Restoration through Removing Degradations in Textual Representations提出的主要思想是通过在文本层面来消除退化信息,生成文本层面修复后的图像,然后用生成的图像来辅助图片层面的修复。这个我理解的论文的大致思想。
2024-09-28 17:07:05
1360
原创 2、Stable Diffusion
Stable Diffusion 是一种高效的文本到图像生成模型,它利用扩散模型(Diffusion Model)技术将自然语言描述转换为高质量的图像。其工作原理是通过反向扩散过程,逐渐将噪声引导到符合输入文本描述的图像上。相比其他生成模型(如 GANs),扩散模型在训练稳定性和图像生成质量方面具有显著优势。
2024-09-26 16:07:08
1424
原创 1、CLIP
CLIP 的训练过程通过对比学习机制,利用大量的图像-文本对进行自监督学习,允许模型在没有人工标签的情况下理解和学习图像与语言之间的关系。训练完成后的 CLIP 模型可以用于各种任务,如图像检索、文本生成、图像分类等,展现出很强的跨模态理解能力。
2024-09-26 10:32:30
871
原创 4、StyleGAN V2
StyleGAN V2是 2020 年 NVIDIA 提出的生成对抗网络(GAN)模型的改进版本,进一步提升了图像生成的质量和稳定性。与初代 StyleGAN 相比,StyleGAN V2 针对一些问题进行了优化,尤其是在生成高质量图像时的伪影问题(artifacts)和多尺度细节的处理。在介绍StyleGAN V2之前,需要对于初代StyleGAN有一定的了解,先介绍一下SytleGAN初代版本。
2024-09-24 10:36:28
1044
原创 3、SRGAN
SRGAN(超分辨率生成对抗网络)是在由Christian Ledig等人在论文《》中提出的。该模型引入了基于GAN(生成对抗网络)的方法来解决单图像超分辨率(SISR)问题,即通过提高低分辨率图像的分辨率来生成高质量、逼真的结果。SRGAN 的重要意义在于,它是最早将GAN应用于超分辨率任务的模型之一,通过生成高频细节,不仅关注像素的准确性,还实现了视觉效果上明显更好的提升,生成的图像更加逼真。
2024-09-24 08:59:08
909
原创 2、StarGAN V2
StarGAN V2的出发点来自于StarGAN中使用的编码是一些固定的01编码,是不可学习,而StarGAN V2则在风格编码做出来改进,将风格编码初始化成向量,同时也可以通过原始输入图像来生成风格编码,而生成风格编码的网络是可学习的,使的风格更加的差异化,并且生成的图像风格更加准确。模型设计主要流程上并没有做出改动,主要在于损失函数的改动。理解损失函数也是掌握对抗生成网络的关键。
2024-09-22 11:59:32
865
原创 1、CycleGAN
CycleGAN 是一种流行的深度学习模型,用于图像到图像的转换任务,且不需要成对的数据。在介绍CycleGAN之前,必须对于传统的GAN模型有了解。
2024-09-19 12:01:45
692
原创 5、PointNeXt
关于PointNeXt实际上仅仅是在PointNet++的基础上做了一些改进,从它的全称就可以看出,Revisiting PointNet++ with Improved Training and Scaling Strategies,在PointNet++的基础上,引入了反向残差瓶颈设计和可分离 MLP,从而实现了高效的模型扩展。在数据增强方面尝试使用更多的方法。
2024-09-18 15:46:24
1054
原创 4、(PCT)Point Cloud Transformer
本篇论文介绍Transformer在3D点云领域的应用,Transformer在NLP领域和图像处理领域都得到了广泛的应用,特别是近年来在图像领域的应用,本篇论文主要介绍,如何将Transformer运用到3D点云领域。
2024-09-18 11:12:57
1134
原创 2、PF-Net点云补全
是一种专门为三维点云补全设计的深度学习模型。点云补全实际上和图片补全是一个逻辑,都是采用GAN模型的思想来进行补全,在图片补全中,将部分像素点删除并且标记,然后卷积特征提取预测、判别器判别,来训练模型,生成的像素点与原来像素点比较完成模型的训练。而PF-Net就是采用GAN的思想在3D点云上的应用。
2024-09-09 12:27:26
1631
3
原创 7、关于LoFTR
LoFTR的提出,是将Transformer模型的注意力机制在特征匹配方向的应用,Transformer的提取特征的机制,在自身进行,本文提出可以的两张图像之间进行特征计算,非常适合进行特征匹配。
2024-09-06 16:18:32
1077
原创 6、关于Medical-Transformer
实际上是在医学领域的运行,只是在这基础上增加了门机制,实际上也就是在原来Axial-attention基础之上增加权重机制,虚弱位置信息对于数据的影响,发现虚弱之后的效果比Axial-Attention机制效果更好。
2024-09-05 12:50:17
1518
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人