- 博客(203)
- 收藏
- 关注
原创 电子科技大学-高级算法设计与分析课程复习总提纲
判断题 10个 20分简单计算题渐进表达式 1题贪心算法 1-2题、分治法 1-2题、动态规划法 1-2题最大流最小割 1题NP相关 归约与复杂度证明题 2-3题近似算法 1-2题其他算法设计题 1题。
2025-03-18 22:28:30
905
原创 CVPR 2025 论文和开源项目合集 | CVer-Papers-with-Code
欢迎各位大佬提交issue,分享CVPR 2025论文和开源项目!
2025-03-13 17:27:00
3070
原创 论文精读-Generate Your Own Scotland: Satellite Image Image Generation Conditioned on Maps 2023 NIPSW
论文的核心目标是解决扩散模型在地球观测 (Earth Observation, EO) 领域探索不足的问题,特别是如何利用如 OpenStreetMap (OSM) 这样的地图数据。通过条件生成逼真的卫星图像,作者希望提升 EO 分析能力,并支持数据增强、可视化等多种应用场景。
2025-01-17 19:54:45
835
原创 论文精读-RSDiff: Remote Sensing Image Generation from Text using Diffusion Model 2024 Neural Computing a
该论文的创新在于通过级联扩散模型解决了文本到遥感图像生成的语义一致性和高分辨率挑战,既降低了计算成本,又在生成质量上取得显著突破。
2025-01-15 16:41:29
750
原创 论文精读-Method of Efficient Synthesizing Post-disaster Remote Sensing Image with Diffusion Model and LL
这篇论文通过结合扩散模型和 LLM 提出了创新的灾后遥感图像生成方法,具有以下特点:使用自然语言描述控制生成任务,增强了图像生成的可控性。通过 Hypernetworks 降低了模型微调成本。提供了高效的灾后伪样本生成工具,可用于支持灾害管理和解译任务。
2025-01-15 15:53:46
869
原创 【已解决】服务器端直接从网页下载Huggingface全部文件-命令行方式
然后使用 sudo apt-get install git-lfs 安装git-lfs (需要管理员权限)原因分析:Huggingface被墙了,无论是git clone还是git lfs都不能直接下载到服务器了。如果嫌麻烦的话,那就手动一个一个文件的下载吧,毕竟挨个试网上解决方法的时间,早都手动下载完并且整合完了。如果你的代理需要身份验证,你可能还需要在设置文件中添加 http.proxyAuthorization。首先,确保你已经安装了 Git。如果未安装 Git,你可以从。
2025-01-13 20:24:41
662
原创 【已解决】使用 GitHub / hugging face进行 git clone 失败问题总结
由于种种原因,国内直接从 GitHub 克隆仓库的速度可能非常慢容易失败,影响开发效率。本文将分享几种加速 git clone 的方法,显著提升克隆速度。
2025-01-12 21:05:42
1217
原创 论文精读-CRS-Diff:Controllable Remote Sensing Image Generation with Diffusion Model
♥ 创作不易,如果能帮助到你的话留下👍和⭐吧,欢迎同方向研究学者交流学习目录1. Motivation2. Contribution3. Method3.1. 引入扩散模型与多条件控制3.2. 生成流程的核心部分A. 文本到图像生成B. 图像解耦3.3. 多条件融合A. 文本条件融合B. 图像条件融合3.4. 训练策略条件控制的实现条件组合的训练机制3.5. 总结4. ExperimentA. 数据集B. 实现细节C. 评估指标D. 比较与分析文本到图像生成单一条件图像生成多条件图像生成E. 消融实验(A
2025-01-12 17:19:09
870
原创 论文精读-⭐MetaEarth: A Generative Foundation Model for Global-scale Remote Sensing Image Generation
♥ 创作不易,如果能帮助到你的话留下👍和⭐吧,欢迎同方向研究学者交流学习。
2025-01-11 22:29:26
954
原创 论文精读-GeoSynth: Contextually-Aware High-Resolution Satellite Image Synthesis CVPRW 2024
*会议:**CVPR 2024 workshop一句话总结:SD+ControlNet为baseline,SatCLIP提取地理位置特征,OSM+Canny+SAM控制,感觉是DiffusionSat(2024ICLR)的低配版,而且很多瞎写的内容;But!!资源很牛,实验很卷,可以说是文章写的很漂亮。♥创作不易,如果能帮助到你的话留下👍和⭐吧,欢迎同方向研究学者交流学习。
2025-01-09 23:26:05
648
原创 ⭐Text2Earth: Unlocking Text-driven Remote Sensing Image Generation with a Global-Scale Dataset and a
根据不同任务需求,开发了两种专用版本的:专为文本到图像生成任务优化,根据用户提供的和,生成与输入条件匹配的遥感图像。:专为图像编辑任务优化,支持基于输入文本对现有遥感图像进行,如修复、修改或增强特定区域。当前生成式模型在自然图像生成上取得了显著进展,但遥感领域的研究相对较少;现有的遥感图像-文本数据集规模较小、覆盖范围有限并且缺少遥感数据信息,无法支持全局范围的生成需求;当前的方法缺乏在多分辨率可控性和无边界图像生成方面的能力。
2025-01-08 12:12:03
1467
原创 pytorch模型保存与加载 | 在加载的模型基础上继续训练
在深度学习模型的训练过程中,因为各种原因,训练可能会中断,例如系统崩溃、意外关机或其他问题。为了避免损失已训练的进度,我们可以在PyTorch中保存和加载模型的状态,以便在重新启动训练时能够从上次中断的地方继续。
2025-01-08 10:38:05
532
原创 从小白角度解析 SDXL,SD1.5、SD2.0、SD3、SD3.5、Flux、VAR、Infinity【干货篇-最新扩散模型、自回归生成模型解析及代码公开网址大全】
SD3.5人物的手还是有问题,可能开发团队也知道这些问题,所以藏手的情况会比FLUX更明显一点。优点是SD3.5出图有时候更写实,FLUX对皮肤的绘制一般都比较油腻,SD3.5比较细腻更真实一点,长文本和提示词遵循的效果两者都差不多,美学方面有时候SD3.5会更好一些,性能方面SD3.5不如FLUX,出图比FLUX久显存占用还更多,不过目前FLUX生态更完善,所以短时间SD3.5应该还是超越不了FLUX的。
2025-01-07 20:38:36
5712
原创 [已解决] OSError: Can‘t load tokenizer for ‘openai/clip-vit-large-patch14‘.
Stable-diffusion安装时Can‘t load tokenizer for ‘openai/clip-vit-large-patch14‘问题解决-优快云博客。链接: https://pan.baidu.com/s/1EBptJ2v9inq9A5LEYFfBMg 提取码: dh2b。用人话翻译一下:在根目录下创建一个文件夹 《openai》,然后把下载的文件传入进去就OK了。需要手动创建openai 目录并把 下载后解压的资源拖入到openai目录下面[全文精华]
2025-01-06 17:53:11
3672
2
原创 【已解决】ModuleNotFoundError: No module named ‘ldm.util‘; ‘ldm‘ is not a package
SD代码中很常见的问题,耗时1h左右解决,搜索优快云相关博客均未得到有效解决,后续在git-issues。
2025-01-05 18:10:14
1502
原创 电子科技大学《高级算法设计与分析》期末复习问题汇总(客观题-选择题、判断题)
逻辑:由于 ( C ) 是一个顶点覆盖,所以 ( G ) 中的每条边 ( (u, v) ) 至少有一个端点 ( u ) 或 ( v ) 在 ( C ) 中。对于图 ( G ) 中的每条边 ( (u, v) \in E ),在图 ( G’ ) 中引入三个新顶点 ( x_{(u,v)}, y_{(u,v)}, z_{(u,v)} ) 和三条边 ( (x_{(u,v)}, y_{(u,v)}), (y_{(u,v)}, z_{(u,v)}), (z_{(u,v)}, x_{(u,v)}) ) 形成一个三角形。
2024-12-14 20:54:04
406
原创 DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
DreamBooth是一种个性化文生图模型:给定某个物体的几张图片作为输入,通过微调预训练的文生图模型(如Imagen),将一个独特的标识符和该物体进行绑定,这样就可以通过含有该标识符的prompt在不同场景下生成包含该物体的新颖图片。(1)最简单的方法就是随机选择一个已经存在的单词,通过这种方式构建特殊标记符会造成一些问题,随着训练的进行,模型会忘记这个单词的本来含义,并将输入图片中的物品的含义与该单词绑定。作者希望将输入图片中的物体与一个特殊标识符绑定在一起,即用这个特殊标记符来表示输入图片中的物体。
2024-11-12 23:15:32
972
原创 ⭐LooseControl: Lifting ControlNet for Generalized Depth Conditioning
我们提出了LooseControl,以允许扩展的深度条件用于基于扩散的图像生成。ControlNet是深度条件图像生成的SOTA,可以产生出色的结果,但需要访问详细的深度图以进行指导。在许多场景中,创建这样精确的深度图是具有挑战性的。本文介绍了深度条件的通用版本,使许多新的内容创建工作流程成为可能。具体而言,我们允许(C1)场景边界控制:仅通过边界条件松散地指定场景(C2)3D盒子控制:用于指定目标对象的布局位置,而不是对象的确切形状和外观。
2024-11-11 12:09:24
881
原创 ⭐SmartControl: Enhancing ControlNet for Handling Rough Visual Conditions
人类的视觉想象通常从类比或粗略的草图开始。例如,给定一张女孩在建筑物前弹吉他的图像,人们可能会类比地想象“如果钢铁侠在埃及的金字塔前弹吉他”会是什么样子。然而,视觉条件往往与文本提示中暗示的想象结果不完全对齐,现有的布局可控的文本到图像(T2I)生成模型通常会生成质量下降并带有明显伪影的图像。为了解决这个问题,本文提出了一种称为的新型T2I生成方法。该方法的设计目标是根据文本提示调整粗略的视觉条件。SmartControl的关键思想是放宽在与文本提示冲突的区域的视觉条件约束。
2024-11-08 15:20:50
1154
原创 ⭐DINOv2: Learning Robust Visual Features without Supervision 2023 CVPR
DINOv2 作为一种无需 fine-tuning 的自监督方法,在提取图像特征方面表现出色,适用于许多不同的视觉任务。它的开源也为广大研究者和工程师提供了一种新的选择,有望为计算机视觉领域带来更多的突破,可以期待更多基于 DINOv2 的研究工作出现。
2024-11-05 19:52:12
4492
原创 Linux scp命令 | 菜鸟教程-从本地复制到远程/从远程复制到本地
scp 是 secure copy 的缩写, scp 是 linux 系统下基于 ssh 登陆进行安全的远程文件拷贝命令。2.使用scp命令要确保使用的用户具有可读取远程服务器相应文件的权限,否则scp命令是无法起作用的。从远程复制到本地,只要将从本地复制到远程的命令的后2个参数调换顺序即可,如下实例。上面命令将本地 music 目录复制到远程 others 目录下。nux scp 命令用于 Linux 之间复制文件和目录。是不加密的,scp 是 rcp 的加强版。的错误信息表示你尝试复制的目标。
2024-11-05 16:10:30
3273
1
原创 SUPIR:Scaling Up to Excellence-Practicing Model Scaling for Photo-Realistic Image Restoratio CVPR 24
我们介绍了SUPIR(Scaling-UP Image Restoration),这是一种开创性的图像修复方法,利用生成先验和模型扩展的力量。SUPIR结合了多模态技术和先进的生成先验,标志着智能和真实图像修复的重大进展。模型扩展是SUPIR的关键催化剂,显著增强了其能力,并展示了图像修复的新潜力。我们收集了一个包含2000万张高分辨率、高质量图像的数据集用于模型训练,每张图像都配有详细的文本注释。SUPIR能够根据文本提示修复图像,拓宽了其应用范围和潜力。
2024-10-28 22:00:15
1019
1
原创 PASD:Pixel-Aware Stable Diffusion for Realistic Image Super-resolution and Personalized Stylization
通过解决预训练的stableSR无法保持以及的问题,提出了一种像素感知稳定扩散(PASD)网络来实现图像的超分辨率和个性化。具体地,引入了像素感知的交叉注意模块,使扩散模型在像素级感知图像局部结构。退化去除模块用于提取退化不敏感特征,以图像高级信息指导扩散过程。引入可调噪声调度,进一步提高图像恢复结果。可信的像素结构:就是保真度的意思,这个作者写论文的表述方式挺诡的,全文有多处这种看起来很高级的表述方式,但其实就是最基础的知识。
2024-10-22 18:01:38
1459
原创 Alpha-CLIP: A CLIP Model Focusing on Wherever You Want CVPR 2024
为了在不损害原始图像的情况下实现区域焦点,我们提出了Alpha-CLIP,它通过额外的alpha通道输入合并感兴趣的区域来改进CLIP[43]。在用CLIP[43]模型初始化时,Alpha-CLIP的训练仍然需要大量的区域-文本配对集合数据。如果能由用户或检测模型指定需要关注的区域,在图像编码的过程就确定需要关注的对象,将会提升CLIP模型的可控制性和区域检测能力。在千万量级的RGBA-region的图像文本对上进行训练后,Alpha-CLIP可以在保证CLIP原始感知能力的前提下,关注到任意指定区域。
2024-10-18 19:51:27
608
原创 DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models ICL
我们的 DeCo 工作发现在减少图片 token 这个目标上,简单的 average pooling 表现就比 Q-former 更好、训练收敛也更快。同期的工作 PLLaVA 也在实验结果方面证明了 adaptive pooling 的优势。这里,更重要的问题是“下面我会大概介绍一下 DeCo 的思路,希望能在一个新的角度给大家启发。
2024-10-17 15:54:18
903
原创 DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior CVPR 2023
我们提出了DiffBIR,一个通用的恢复管道,可以处理不同的盲图像恢复任务,采用统一框架。1)降级去除:去除与图像无关的内容;2)信息再生:生成缺失的图像内容。每个阶段都独立开发,但它们以级联的方式无缝协作。在第一阶段,我们使用恢复模块去除退化,获得高保真的恢复结果。在第二阶段,我们提出了IRControlNet,它利用潜在扩散模型的生成能力来生成真实的细节。具体而言,IRControlNet基于特别生成的条件图像进行训练,这些图像没有干扰性的噪声内容,从而实现稳定的生成性能。
2024-10-17 09:07:38
1018
1
原创 ⭐HyperTransformer: A Textural and Spectral Feature Fusion Transformer for Pansharpening CVPR 2022
Pansharpening旨在将注册的高分辨率全色图像 (PAN) 与低分辨率高光谱图像 (LR-HSI) 融合,以生成具有高光谱和空间分辨率的增强 HSI。现有的全色锐化方法忽略了使用注意力机制将 HR 纹理特征从 PAN 转移到 LR-HSI 特征,从而导致空间和光谱失真。在本文中,我们提出了一种新的全色锐化注意机制,称为 HyperTransformer,其中 LR-HSI 和 PAN 的特征分别被表述为转换器中的查询和键。通过计算查询与键之间的相似度(通常使用点积或其他相似度度量),生成注意力权重。
2024-10-17 08:54:36
1072
原创 CrossDiff: Exploring Self-Supervised Representation of Pansharpening via Cross-Predictive Diffusion
全色(PAN)图像和相应的多光谱(MS)图像的融合也称为全色锐化,其目的是将PAN的丰富空间细节和MS的光谱信息结合起来。由于缺乏高分辨率 MS 图像,可用的基于深度学习的方法通常遵循降低分辨率训练以及降低分辨率和全分辨率测试的范式。当以原始 MS 和 PAN 图像作为输入时,由于尺度变化,它们总是获得次优结果。在本文中,我们建议通过设计一个名为 CrossDiff 的交叉预测扩散模型来探索全色锐化的自监督表示。它有两个阶段的训练。
2024-10-12 11:41:35
851
2
原创 CDFormer: When Degradation Prediction Embraces Diffusion Model for Blind Image Super-Resolution CVPR
现有的盲图像超分辨率(BSR)方法侧重于估计核或退化信息,但长期以来一直忽略了基本内容细节。在本文中,我们提出了一种新颖的 BSR 方法,即内容感知退化驱动 Transformer (CDFormer),以捕获退化和内容表示。然而,低分辨率图像不能提供足够的内容细节,因此我们引入了一个来学习低分辨率图像和高分辨率图像中的,然后在给定低分辨率信息的情况下近似真实分布。此外,我们应用,有效地利用 CDP 来细化特征。
2024-10-11 17:00:54
1107
1
原创 电子科技大学高级算法设计与分析-MaxFlow网络流基础知识梳理
source:源点sink:终点Flow:流量capacity:容量Residual:残量Residual Network:残量网络Augmenting path:增广路径,表示从源点 s 到终点 t 不包含环的路径Bottleneck capacity:瓶颈容量。
2024-10-11 11:54:06
540
1
原创 DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior CVPR 2023
我们提出了DiffBIR,一个通用的恢复管道,可以处理不同的盲图像恢复任务,采用统一框架。1)降级去除:去除与图像无关的内容;2)信息再生:生成缺失的图像内容。每个阶段都独立开发,但它们以级联的方式无缝协作。在第一阶段,我们使用恢复模块去除退化,获得高保真的恢复结果。在第二阶段,我们提出了IRControlNet,它利用潜在扩散模型的生成能力来生成真实的细节。具体而言,IRControlNet基于特别生成的条件图像进行训练,这些图像没有干扰性的噪声内容,从而实现稳定的生成性能。
2024-09-26 16:25:26
1078
原创 Denoising: A Powerful Building-Block for Imaging, Inverse Problems, and Machine Learning
得分函数是指数据分布的对数密度函数的梯度。给定概率密度函数px),得分函数定义为:得分函数提供了在给定点x处,数据分布的变化率信息,对于理解数据结构和生成新样本非常重要。
2024-09-24 15:42:58
1006
原创 LDM: High-Resolution Image Synthesis with Latent Diffusion Models CVPR 2022
通过将图像形成过程分解为降噪自编码器的顺序应用,扩散模型(DMs)在图像数据和其他数据上实现了最先进的合成结果。此外,它们的形成过程允许引导机制来控制图像生成过程而无需再训练。然而,由于这些模型通常直接在像素空间中操作,优化功能强大的DM通常会消耗数百个GPU数天,而且由于顺序计算,推理也非常昂贵。为了在有限的计算资源上进行DM的训练,同时保持其质量和灵活性,本文将其应用于预训练的自编码器的潜在空间。
2024-09-11 13:31:30
1448
原创 SRDiff: Single image super-resolution with diffusion probabilistic models 2022 Neurocomputing
此外,理论和性能都表明,我们的方法能够分别解决面向 PSNR 的方法、GAN 驱动方法和基于流的方法中出现的过度平滑、模式崩溃和大量占用问题。因此,文章提出了一种新颖的扩散概率模型(SRDiff),旨在通过逐步将高斯噪声转化为超分辨率图像,从而生成多样且高质量的超分辨率结果,同时保持较小的模型规模和高效的训练过程。:在每个步骤中,条件噪声预测器使用当前的潜在变量、扩散时间步和通过LR编码器生成的隐藏条件,以生成更准确的输出。:GAN驱动的方法容易陷入模式崩溃,生成的图像缺乏多样性,无法覆盖所有可能的结果。
2024-09-06 17:14:13
1288
原创 DIFFUSION 系列笔记| Latent Diffusion Model、Stable Diffusion基础概念、数学原理、代码分析、案例展示
为了在有限的计算资源上训练它们,LDM 先使用一个预训练好的 AutoEncoder,将图片像素转换到了维度较小的 latent space 上,而后再进行传统的扩散模型推理与优化。Diffusers 中,SD 采用 Lora 的部分位于 Unet 当中,大部分的 Lora 在 Transformer 模块当中,SD 的 lora 与 NLP Lora 实现方式基本相同,此外,通过引入交叉注意力,使得 DMs 能够在条件生成上有不错的效果,包括如文字生成图片,inpainting 等。
2024-08-29 17:03:43
2796
1
原创 生成式AI扩散模型-Diffusion Model【李宏毅2023】概念讲解、原理剖析笔记
Diffusion和DALL采用的Decoder是Latent Representation,之前在讲Diffussion Model的时候,nosie是加到图片上面的,而现在我们的Framework里面扩散模型产生的是中间产物,他可能不是图片了,所以我们在diffusion process这一部分,为什么不直接生成一个带噪音的猫?通过一步步的加噪声,得到最终的噪音图,而每一步的step x 就代表在训练过程的第二个输入,每一步得到的加了噪音的图,就是训练过程的第一个输入(相当于反向过来看)
2024-08-28 20:48:28
2383
原创 遥感领域remote sensing数据集整理-Super resolution超分辨率任务PAN数据集、多光谱数据集、常见遥感数据集汇总梳理
类场景图像,密林、疏林、草原、港口、高层建筑、低层建筑、立交桥、铁路、居民区、道路、储罐。类,飞机、舰船、油罐、棒球场、网球场、篮球场、田径场、港口、桥梁和汽车。系列商业遥感卫星提供的高分辨率多光谱和全色影像数据。草地、森林、农田、停车场、住宅区、工业区和河湖。商业高分辨率遥感卫星提供的全色和多光谱影像数据。商业高分辨率遥感卫星提供的全色和多光谱影像数据。高分辨率多光谱成像卫星的全色和多光谱影像数据。高分辨率测绘型遥感卫星的全色和多光谱影像数据。高分辨率遥感卫星的全色和多光谱影像数据。
2024-08-26 19:52:07
1694
原创 遥感领域Remote sensing调研-使用diffusion做super resolution超分论文CVPR、ECCV等整理合集
TitlePaperCodeConference2024 CVPR2024 CVPR2024 CVPR2024 CVPR2024 CVPR2024 CVPR√2024 CVPR2024 TGRS2024 CVPRISPRS。
2024-08-26 19:50:25
1247
原创 (2-论文精读、代码分析)Restormer: Efficient Transformer for High-Resolution Image Restoration CVPR2022
这个论文的主要想法是将 Transformer 模型应用到图像修复中,不过和一般的VIT模型不同的是,没有使用patch 级的特征进行 token 建模,可以理解为每个像素就是一个 token。Transformer block 主要包括两部分:一部分是self-attention 的计算,另一部分是 FFN 部分。作者也很自然的想到了改进这两个部分,提出了两个模块,分别是:Multi-Dconv Head Transposed Attention,主要改进 self-attention 部分。
2024-07-28 20:18:06
1423
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人