- 博客(37)
- 收藏
- 关注
原创 Diff-Retinex: Rethinking Low-light Image Enhancement with A GenerativeDiffusion Model----论文精读
Diff-Retinex 是一种物理可解释且具备生成能力的低光图像增强方法。它通过Transformer分解 + 扩散生成的双阶段设计,不仅提升了图像质量,还能恢复甚至生成缺失的细节,在多项指标和视觉对比中均表现出色。
2025-12-22 20:22:57
717
原创 目标分割介绍及最新模型----学习笔记
目标分割的目标是 将感兴趣的目标区域从图像背景中分离出来,并得到目标在像素级别的精确轮廓。目标分割有两种类型,一种是语义分割,一种是实例分割。
2025-12-21 14:45:37
964
原创 目标检测的内涵、发展和经典模型--学习笔记
目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置。目标检测是计算机视觉的核心任务,其目标是任务是找出图像中所有感兴趣的目标。以下面这个图为例,对于一个输入的 图像,目标检测的目的是在输入的图像有多个目标的情况下,准确识别出目标的个数,各个目标的种类,以及目标的位置。
2025-12-18 15:52:48
1035
1
原创 学习笔记:Transformer
为什么需要用transformer?在没有transformer的时候,我们都是用什么来完成这系列的任务的呢?其实在之前我们使用的是RNN(或者是其的单向或者双向变种LSTM/GRU等) 来作为编解码器。RNN模块每次只能够吃进一个输入token和前一次的隐藏状态,然后得到输出。它的时序结构使得这个模型能够得到长距离的依赖关系,但是这也使得它不能够并行计算,模型效率十分低。
2025-12-17 16:37:59
483
原创 学习笔记:注意力机制(Attention)、自注意力(Self-Attention)和多头注意力(Multi-Head Attention)
人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段,是人类在长期进化中形成的一种生存机制,人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性。深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似,核心目标也是从众多信息中选择出对当前任务目标更关键的信息。传统的解码编码模型:对于解码器Decoder来说,其任务是根据句子Source的中间语义表示C和之前已经生成的历史信息y_1,y_2,…y_i−1,来逐个生成i时刻要生成的单词。
2025-12-17 16:22:29
1105
原创 学习笔记:卷积神经网络(CNN)
你是否好奇,人类是如何轻松识别出眼前的人脸、花朵或风景的?当目光聚焦,视网膜先把外界景象转化成无数像素信号,就像给世界拍了张 “像素快照”。紧接着,大脑皮层的特殊细胞化身 “视觉侦探”,从杂乱像素里敏锐捕捉边缘、方向,把画面拆解成基础线条。这套从底层像素到高层语义的递进处理逻辑,给人工智能带来巨大启发——能不能模仿人类视觉的分层智慧,让机器也拥有 “看懂” 图像的能力?于是,卷积神经网络(CNN)应运而生,它像为 AI 打造的 “数字视觉系统”,复刻生物视觉的分层抽象,开启了机器智能识别的全新篇章。
2025-12-17 15:35:16
1311
原创 学习笔记:循环神经网络(RNN)
FNN的特点:假定数据是相互独立的,当数据存在前后依赖关系时(即序列数据)模型的效果不好。在处理时间序列敏感的问题和任务时效果不好。举一个小例子:我喜欢吃苹果!苹果真是一家很棒的公司!问题:问题:哪个“苹果”指的是水果,哪个指的是公司?在深度学习领域,FNN具有出色的表现,取得了许多成功。但是它每次处理数据都是独立的,无法处理前后具有关系的数据。这个问题在处理一些自然文本上比较致命。举一个关于苹果 的例子: 在这两个句子中,“苹果”都需要依靠前后文才能知道具体指代的意思。
2025-12-17 14:32:39
898
原创 残差网络论文学习笔记:Deep Residual Learning for Image Recognition全文翻译
深层神经网络的训练难度更高。本文提出一种残差学习框架(residual learning framework),旨在降低远超以往深度的网络训练复杂度。我们将网络层明确重构为学习参考层输入的残差函数(learning residual functions with reference to the layer inputs),而非学习无参考基准的函数。综合实证结果表明,该残差网络更易于优化,且能通过显著增加深度提升模型精度。
2025-11-29 21:51:12
845
原创 Learning Transferable Visual Models From Natural Language Supervision 学习笔记
CLIP(Contrastive Language-Image Pre-training)是 OpenAI 于 2021 年提出的跨模态预训练模型,核心目标是打破传统计算机视觉模型依赖 “固定类别标签” 的局限,通过自然语言监督学习可迁移的视觉表征,实现零样本(Zero-Shot)迁移到多种下游任务。以下从核心背景、方法设计、实验结果、局限性与影响等维度,全面拆解论文核心内容。
2025-11-02 16:11:01
1002
原创 U2Fusion: A Unified UnsupervisedImage Fusion Network
—本研究提出了一种新颖的统一、无监督、端到端的图像融合网络,称为。
2025-07-11 15:30:02
615
原创 You Do Not Need Additional Priors or Regularizers in Retinex-based Low-lightImage Enhancement
在低光照条件下拍摄的图像通常会严重退化。近年来,许多基于Retinex理论的深度学习网络被提出用于增强低光图像。这类方法通常需要将图像分解为反射分量和照明分量,但这一任务是高度不适定的,并且不存在可用的真实标签。以往的工作通过引入附加的先验或正则项来解决这一问题。然而,设计一种能够适用于多种场景的有效先验或正则器具有很大挑战性,而且过多的附加约束会导致模型性能下降。
2025-07-11 00:16:53
774
原创 URetinex-Net: Retinex-based Deep Unfolding Network for Low-light ImageEnhancement
基于Retinex模型的方法通过精心设计的先验条件,在分层处理低光照图像增强任务中展现出显著效果。然而,传统手工设计的先验和基于优化的解决方案普遍存在适应性不足和效率低下的问题。为解决这些缺陷,本文提出一种基于Retinex理论的深度展开网络(URetinex-Net),通过将优化问题展开为可学习的网络架构,实现低光照图像到反射层与光照层的分解。该模型将分解问题转化为隐式先验正则化问题,并设计了三个基于学习的核心模块:数据依赖的初始化模块、高效展开优化模块和用户可定制的光照增强模块。
2025-07-10 00:41:07
1001
原创 论文翻译:Towards Grand Unified Representation Learning for UnsupervisedVisible-Infrared Person Re-Ident
无监督可见光-红外行人重识别(USL-VI-ReID)是一项至关重要且极具挑战性的任务,能够缓解跨模态标注成本高昂的问题。现有研究主要关注无监督条件下的跨模态差异处理,却忽略了USL-VI-ReID本质上是一个具有层次化差异(即摄像头差异与模态差异)的跨模态检索任务,这种差异会导致聚类不一致和跨模态标签关联模糊。
2025-07-09 18:11:24
934
原创 论文翻译:Diff-Retinex: Rethinking Low-light Image Enhancement with A GenerativeDiffusion Model
在本文中,我们重新思考了低光照图像增强任务,提出了一种兼具物理可解释性和生成能力的扩散模型,称为Diff-Retinex。我们的目标是整合物理模型与生成网络的优点,并通过生成网络补充甚至推断低光照图像中缺失的信息。因此,Diff-Retinex将低光照图像增强问题转化为Retinex分解和条件图像生成两个部分。在Retinex分解阶段,我们结合Transformer中注意力机制的优势,精心设计了Retinex Transformer分解网络(TDN),将图像分解为光照图和反射图。
2025-07-08 23:36:25
647
原创 论文翻译:Zero-Reference Deep Curve Estimation for Low-Light Image Enhancement
本文提出了一种新颖的零参考深度曲线估计方法(Zero-DCE),该方法将光照增强任务构建为基于深度网络的图像特定曲线估计问题。我们训练了一个轻量级深度网络DCE-Net,用于估计像素级高阶曲线以实现给定图像的动态范围调整。这些曲线经过特殊设计,充分考虑了像素值范围、单调性和可微性等特性。Zero-DCE的最大优势在于其对参考图像的宽松假设——即训练过程中完全不需要任何配对或非配对数据。这一特性是通过精心设计的一组无参考损失函数实现的,这些函数能够隐式衡量增强质量并驱动网络学习。
2025-07-07 23:22:47
1035
原创 Dif-Fusion: Toward High Color Fidelity in Infraredand Visible Image Fusion With Diffusion Models论文翻译
—色彩在人类视觉感知中起着重要作用,反映了物体的光谱。然而,现有的红外与可见光图像融合方法很少探讨如何直接处理多光谱/通道数据,并实现高色彩保真度。本文通过提出一种新的基于扩散模型的方法,名为Dif-Fusion,来解决上述问题,生成多通道输入数据的分布,从而增强多源信息聚合的能力和色彩的保真度。具体来说,本文方法不同于现有的图像融合方法将多通道图像转化为单通道数据,而是在潜在空间中通过去噪网络和正向、反向扩散过程来创建多通道数据分布。接着,我们使用去噪网络提取包含可见光和红外信息的多通道扩散特征。
2025-04-24 19:52:37
1096
原创 基于深度Retinex分解的低光照增强方法
本文提出了一种基于深度Retinex分解的低光照增强方法——Retinex-Net,旨在解决传统Retinex方法依赖手工约束、泛化能力不足的问题。核心贡献包括:数据驱动的分解网络:通过构建首个真实场景低光/正常光成对数据集LOL(500对真实图像+1000对合成图像),利用Decom-Net从图像中分离反射率(R)和光照(I),约束两者共享反射率且光照平滑。端到端增强框架:Decom-Net:引入结构感知总变差损失(反射率梯度加权),保留光照的结构边界;
2025-04-22 16:19:55
891
原创 Transformer学习笔记
在 Transformer 中,每个输入词 XXX 通过一个 线性变换 生成 查询(Query, Q)、键(Key, K) 和 值(Value, V):其中:Q(查询,Query):表示当前词对其他词的关注程度K(键,Key):用于计算当前词和其他词的匹配程度V(值,Value):存储词的真实信息这些 Q,K,VQ, K, VQ,K,V 矩阵的维度通常是:是序列长度(即多少个词) 是词嵌入的维度(如 512 或 768 )
2025-03-31 14:51:03
983
原创 Retinexformer:基于 Retinex 的单阶段 Transformer 低光照图像增强方法
开头发点牢骚:本来做的好好都都要中期了,导师怎么突然给我换题目啊。真是绷不住了......又要从头开始学了,唉!低光照图像增强算法多基于Retinex理论,但传统模型忽略暗区噪声和光照过程中引入的失真,且现有方法依赖多阶段CNN训练,难以建模长距离依赖,效率低下。文章搭建了①单阶段Retinex框架(ORF),可以通过光照估计即直接预测光照提升图(而非传统光照图),避免数值不稳定问题。同时,还能做到噪声修复,端到端联合优化光照增强与失真修复。
2025-03-27 23:21:39
2245
原创 更高效率生成高分辨图像----VAE+DDPM、DDIM采样代码解读
基于之前的工作,自己在代码的基础上进行了修改,在ddpm的训练过程中加入了VAE。采用预训练的KL-正则化自动编码器对输入图像进行潜在空间表征学习,将原始512×512像素空间映射到64×64×4的latent space。在latent space内进行ddpm的训练过程。最终采样阶段,利用VAE解码器将去噪后的潜在向量映射回高维像素空间,完成图像生成任务。使用的数据集是AID遥感数据集,像素为600*600,为了能顺利进行任务,先将图像中心裁剪成512*512,在进行操作。
2025-03-24 16:10:21
975
原创 Stable Diffusion 学习笔记
Stable Diffusion 是 一种基于潜空间扩散(Latent Diffusion)的深度学习模型,用于生成高质量图像。它由 CompVis于 2022 年发布,随后由 Stability AI 进行优化和推广。Stable Diffusion 属于扩散模型(Diffusion Models)的范畴,其基本原理是:①训练阶段:给真实图像不断添加噪声,让模型学习如何逐步去噪恢复原图。②生成阶段:从纯噪声开始,逐步去噪生成符合文本描述的图像。与早期扩散模型(如 DDPM, DDIM)
2025-03-13 14:44:11
1228
2
原创 小波变换与分形的结合介绍
与DCT编码不同,分形编码利用自相似性,不是临近样本的相关性,而是大范围的相似性,即图像块的相似性。这种算法的特点是压缩率高,运算速度与提高图像分辨率的关系不大,但由此带来的问题是压缩时的计算量大,编码压缩时间很长。数学上,分形的一个重要特征是非整数维数,这与传统欧几里得几何(点是 0 维,线是 1 维,面是 2 维,体是 3 维)不同。其中,ψa,b(t)ψa,b(t) 是小波基函数,aa 是尺度参数,bb 是平移参数。其中,N(ϵ)N(ϵ) 是用大小为 ϵϵ 的盒子覆盖分形所需的盒子数。
2025-03-09 16:05:52
791
1
原创 小波变换-浅显学习笔记
小波变换是一种可以同时解析信号的 时域 和 频域 的数学工具。它能够用一组伸缩和平移的小波函数来分解信号,从而获得不同尺度下的细节信息。相比傅里叶变换(FT)和短时傅里叶变换(STFT),小波变换的优势在于:自适应窗口:高频部分使用较短的时间窗口(保证时域精度),低频部分使用较长的时间窗口(保证频域精度)。多尺度分析:可以同时捕捉局部细节和整体结构信息。
2025-03-07 19:51:47
1555
原创 DDIM、DDPM的sample结果与对比
系数过小,去噪的方差越来越小,使得生成图像的 像素值逐渐收敛到一个固定的均值,导致:生成的 不同样本变得越来越相似,缺乏多样性(趋于同质化),同时亮度逐渐衰减,因为整个图像像素值在不断向某个固定值塌缩。大部分的采样结果是一片黑,少部分的采样结果能隐约看见人的轮廓,背景为深蓝色,其余黑色。sample_steps=5 sample_steps=2ddim_20250304_165641用时0.58 秒。可以发现,随着系数的降低,sample出来的图像亮度降低,逐渐趋于同质化,且没有背景(背景为纯色)
2025-03-04 17:17:35
1681
原创 DDIM代码解读
对比可以看出,ddim的速度明显比ddpm快多了。可能是训练的次数不够吧,确实也看不出什么东西。不过ddpm训练出来的东西确实比ddim要少掉san些(?使用cifar-10数据集,训练轮数皆为50轮。采样过程均生成32张图。见上一篇:ddpm training。
2025-03-03 22:07:14
986
原创 DDPM代码解读
对于一般的 RGB 图像(如 CIFAR-10),它的像素值范围是。,而 PyTorch 的模型一般希望输入的是 标准化的浮点数,所以。库中导入的 2D UNet 模型,用于图像生成任务。:PyTorch 库,用于深度学习模型的构建和计算。:模型文件的路径,这里是一个生成动漫风格图像的模型。:输入图像的通道数(例如 RGB 图像为 3)。:用于显示进度条的工具,方便观察代码运行进度。:类的构造函数,用于初始化 DDIM 的参数。:用于将生成的图像保存为网格形式的工具函数。
2025-03-03 17:53:04
1178
1
原创 DDIM学习笔记
DDIM通过引入非马尔可夫过程,减少生成所需的时间步长,同时保持生成质量。其特点一是非马尔可夫过程,允许跳过某些中间步骤,加速生成。第二点是确定性生成,即通过固定噪声,使生成过程可重复。
2025-02-27 21:31:15
1363
1
原创 DDPM学习笔记
DDPM(Denoising Diffusion Probabilistic Models)是一类基于扩散过程的生成模型。它的核心思想是通过模拟数据从噪声中恢复的过程,来生成新的数据样本。DDPM的构建过程与传统的生成对抗网络(GAN)和变分自编码器(VAE)不同,主要通过一系列的“去噪”操作来训练模型。
2025-02-26 17:02:31
1044
1
原创 VAE学习笔记
Variational Autoencoder(VAE)是一种深度生成模型,它结合了变分推断和神经网络的优势,用于学习数据的潜在分布,并生成新的数据样本。VAE可以看作是自编码器(Autoencoder)的一种扩展,在自编码器的基础上引入了概率模型,并通过变分推断来近似后验分布。VAE的关键创新之一是通过引入潜在变量模型,能够以概率的方式生成新的数据点。
2025-02-24 18:19:01
595
1
原创 Filezilla密钥连接方法
需要上传私钥,以.pkk文件上传。先选择“所有文件”,然后找到私钥文件。filezilla会自动提示你将文件转为.pkk文件,这时候只需要另存就可以了。上传另寻完的文件即设置成功,可以连接。新的账号是使用密钥连接的,而不是密码。因此在设置的时候,需要将登录类型改为“密钥文件”而不是“正常”。问题:师兄为我重新弄了一个服务器的账号,但是我发现filezilla似乎连接不上。通常情况下,密钥文件在C盘/用户/用户名/.ssh 文件内,其中id_rsa.pub。,用来放到服务器上,以便让你通过私钥验证身份。
2025-01-09 22:36:44
995
2
原创 如何更新cuda?
----->>>假设要更新到11.6版本。下载 CUDA 11.6 安装包。验证 CUDA 是否成功安装。卸载当前 CUDA 版本。运行 CUDA 安装脚本。
2025-01-09 21:52:15
207
原创 Ubuntu软件卸载重装之后,有图标残留且打不开新装的软件?
问题:通过卸载重装的方式更新某软件,结果发现卸载后依然有图标残留。图标变成透明的,但是点不开。安装更新后的软件后,图标依然透明且点不开。未解决的问题:一同操作下来,中文输入法会消失。
2025-01-08 00:30:06
504
原创 ubuntu中文输入法又不能用了?(fcitx版)
打开 fcitx 配置工具(fcitx-configtool)。确保 fcitx 是默认输入法框架,可以在设置中查看。在输入法列表中添加“拼音”或其他中文输入法。
2025-01-08 00:16:24
853
原创 红外和可见光图像数据集
TNO: https://figshare.com/articles/dataset/TNO_Image_Fusion_Dataset/1008029INO: https://www.ino.ca/en/technologies/video-analytics-dataset/videos/RoadScene: https://github.com/hanna-xu/RoadScene,MSRS: https://github.com/Linfeng-Tang/MSRSLLVIP: htt
2024-12-17 19:10:02
301
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅