- 博客(20)
- 收藏
- 关注
原创 Transformer学习笔记
在 Transformer 中,每个输入词 XXX 通过一个 线性变换 生成 查询(Query, Q)、键(Key, K) 和 值(Value, V):其中:Q(查询,Query):表示当前词对其他词的关注程度K(键,Key):用于计算当前词和其他词的匹配程度V(值,Value):存储词的真实信息这些 Q,K,VQ, K, VQ,K,V 矩阵的维度通常是:是序列长度(即多少个词) 是词嵌入的维度(如 512 或 768 )
2025-03-31 14:51:03
823
原创 Retinexformer:基于 Retinex 的单阶段 Transformer 低光照图像增强方法
开头发点牢骚:本来做的好好都都要中期了,导师怎么突然给我换题目啊。真是绷不住了......又要从头开始学了,唉!低光照图像增强算法多基于Retinex理论,但传统模型忽略暗区噪声和光照过程中引入的失真,且现有方法依赖多阶段CNN训练,难以建模长距离依赖,效率低下。文章搭建了①单阶段Retinex框架(ORF),可以通过光照估计即直接预测光照提升图(而非传统光照图),避免数值不稳定问题。同时,还能做到噪声修复,端到端联合优化光照增强与失真修复。
2025-03-27 23:21:39
700
原创 更高效率生成高分辨图像----VAE+DDPM、DDIM采样代码解读
基于之前的工作,自己在代码的基础上进行了修改,在ddpm的训练过程中加入了VAE。采用预训练的KL-正则化自动编码器对输入图像进行潜在空间表征学习,将原始512×512像素空间映射到64×64×4的latent space。在latent space内进行ddpm的训练过程。最终采样阶段,利用VAE解码器将去噪后的潜在向量映射回高维像素空间,完成图像生成任务。使用的数据集是AID遥感数据集,像素为600*600,为了能顺利进行任务,先将图像中心裁剪成512*512,在进行操作。
2025-03-24 16:10:21
785
原创 Stable Diffusion 学习笔记
Stable Diffusion 是 一种基于潜空间扩散(Latent Diffusion)的深度学习模型,用于生成高质量图像。它由 CompVis于 2022 年发布,随后由 Stability AI 进行优化和推广。Stable Diffusion 属于扩散模型(Diffusion Models)的范畴,其基本原理是:①训练阶段:给真实图像不断添加噪声,让模型学习如何逐步去噪恢复原图。②生成阶段:从纯噪声开始,逐步去噪生成符合文本描述的图像。与早期扩散模型(如 DDPM, DDIM)
2025-03-13 14:44:11
767
1
原创 小波变换与分形的结合介绍
与DCT编码不同,分形编码利用自相似性,不是临近样本的相关性,而是大范围的相似性,即图像块的相似性。这种算法的特点是压缩率高,运算速度与提高图像分辨率的关系不大,但由此带来的问题是压缩时的计算量大,编码压缩时间很长。数学上,分形的一个重要特征是非整数维数,这与传统欧几里得几何(点是 0 维,线是 1 维,面是 2 维,体是 3 维)不同。其中,ψa,b(t)ψa,b(t) 是小波基函数,aa 是尺度参数,bb 是平移参数。其中,N(ϵ)N(ϵ) 是用大小为 ϵϵ 的盒子覆盖分形所需的盒子数。
2025-03-09 16:05:52
608
1
原创 小波变换-浅显学习笔记
小波变换是一种可以同时解析信号的 时域 和 频域 的数学工具。它能够用一组伸缩和平移的小波函数来分解信号,从而获得不同尺度下的细节信息。相比傅里叶变换(FT)和短时傅里叶变换(STFT),小波变换的优势在于:自适应窗口:高频部分使用较短的时间窗口(保证时域精度),低频部分使用较长的时间窗口(保证频域精度)。多尺度分析:可以同时捕捉局部细节和整体结构信息。
2025-03-07 19:51:47
891
原创 DDIM、DDPM的sample结果与对比
系数过小,去噪的方差越来越小,使得生成图像的 像素值逐渐收敛到一个固定的均值,导致:生成的 不同样本变得越来越相似,缺乏多样性(趋于同质化),同时亮度逐渐衰减,因为整个图像像素值在不断向某个固定值塌缩。大部分的采样结果是一片黑,少部分的采样结果能隐约看见人的轮廓,背景为深蓝色,其余黑色。sample_steps=5 sample_steps=2ddim_20250304_165641用时0.58 秒。可以发现,随着系数的降低,sample出来的图像亮度降低,逐渐趋于同质化,且没有背景(背景为纯色)
2025-03-04 17:17:35
1020
原创 DDIM代码解读
对比可以看出,ddim的速度明显比ddpm快多了。可能是训练的次数不够吧,确实也看不出什么东西。不过ddpm训练出来的东西确实比ddim要少掉san些(?使用cifar-10数据集,训练轮数皆为50轮。采样过程均生成32张图。见上一篇:ddpm training。
2025-03-03 22:07:14
733
原创 DDPM代码解读
对于一般的 RGB 图像(如 CIFAR-10),它的像素值范围是。,而 PyTorch 的模型一般希望输入的是 标准化的浮点数,所以。库中导入的 2D UNet 模型,用于图像生成任务。:PyTorch 库,用于深度学习模型的构建和计算。:模型文件的路径,这里是一个生成动漫风格图像的模型。:输入图像的通道数(例如 RGB 图像为 3)。:用于显示进度条的工具,方便观察代码运行进度。:类的构造函数,用于初始化 DDIM 的参数。:用于将生成的图像保存为网格形式的工具函数。
2025-03-03 17:53:04
809
1
原创 DDIM学习笔记
DDIM通过引入非马尔可夫过程,减少生成所需的时间步长,同时保持生成质量。其特点一是非马尔可夫过程,允许跳过某些中间步骤,加速生成。第二点是确定性生成,即通过固定噪声,使生成过程可重复。
2025-02-27 21:31:15
1029
1
原创 DDPM学习笔记
DDPM(Denoising Diffusion Probabilistic Models)是一类基于扩散过程的生成模型。它的核心思想是通过模拟数据从噪声中恢复的过程,来生成新的数据样本。DDPM的构建过程与传统的生成对抗网络(GAN)和变分自编码器(VAE)不同,主要通过一系列的“去噪”操作来训练模型。
2025-02-26 17:02:31
793
1
原创 VAE学习笔记
Variational Autoencoder(VAE)是一种深度生成模型,它结合了变分推断和神经网络的优势,用于学习数据的潜在分布,并生成新的数据样本。VAE可以看作是自编码器(Autoencoder)的一种扩展,在自编码器的基础上引入了概率模型,并通过变分推断来近似后验分布。VAE的关键创新之一是通过引入潜在变量模型,能够以概率的方式生成新的数据点。
2025-02-24 18:19:01
271
1
原创 Filezilla密钥连接方法
需要上传私钥,以.pkk文件上传。先选择“所有文件”,然后找到私钥文件。filezilla会自动提示你将文件转为.pkk文件,这时候只需要另存就可以了。上传另寻完的文件即设置成功,可以连接。新的账号是使用密钥连接的,而不是密码。因此在设置的时候,需要将登录类型改为“密钥文件”而不是“正常”。问题:师兄为我重新弄了一个服务器的账号,但是我发现filezilla似乎连接不上。通常情况下,密钥文件在C盘/用户/用户名/.ssh 文件内,其中id_rsa.pub。,用来放到服务器上,以便让你通过私钥验证身份。
2025-01-09 22:36:44
416
1
原创 如何更新cuda?
----->>>假设要更新到11.6版本。下载 CUDA 11.6 安装包。验证 CUDA 是否成功安装。卸载当前 CUDA 版本。运行 CUDA 安装脚本。
2025-01-09 21:52:15
96
原创 Ubuntu软件卸载重装之后,有图标残留且打不开新装的软件?
问题:通过卸载重装的方式更新某软件,结果发现卸载后依然有图标残留。图标变成透明的,但是点不开。安装更新后的软件后,图标依然透明且点不开。未解决的问题:一同操作下来,中文输入法会消失。
2025-01-08 00:30:06
212
原创 ubuntu中文输入法又不能用了?(fcitx版)
打开 fcitx 配置工具(fcitx-configtool)。确保 fcitx 是默认输入法框架,可以在设置中查看。在输入法列表中添加“拼音”或其他中文输入法。
2025-01-08 00:16:24
339
原创 红外和可见光图像数据集
TNO: https://figshare.com/articles/dataset/TNO_Image_Fusion_Dataset/1008029INO: https://www.ino.ca/en/technologies/video-analytics-dataset/videos/RoadScene: https://github.com/hanna-xu/RoadScene,MSRS: https://github.com/Linfeng-Tang/MSRSLLVIP: htt
2024-12-17 19:10:02
145
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人