自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(220)
  • 收藏
  • 关注

原创 《代码随想录-精华内容提取》08 回溯算法

本文系统介绍了回溯算法的理论基础和应用实践。回溯法是一种通过递归实现的暴力搜索方法,适用于组合、排列、切割、子集、棋盘等问题。文章详细阐述了回溯算法的树形结构抽象、模板化实现方法,并通过多个例题(如组合问题、电话号码字母组合、子集问题等)展示了回溯法的具体应用。重点讲解了剪枝优化技巧和去重处理方法,强调正确区分"树层去重"和"树枝去重"的关键性。最后指出回溯法的核心特征:for循环横向遍历,递归纵向遍历,回溯不断调整结果集。全文提供了完整的C++实现代码和时间复杂度分

2025-11-18 00:31:32 775

原创 《代码随想录-精华内容提取》07 二叉树

本文系统介绍了二叉树的理论知识和遍历方法。首先讲解了二叉树的种类(满二叉树、完全二叉树、二叉搜索树、平衡二叉搜索树)和存储方式(链式存储和顺序存储)。重点阐述了二叉树的四种遍历方式:递归法和迭代法实现的前序、中序、后序遍历,以及使用队列实现的层序遍历(广度优先)。文章通过代码示例详细展示了各种遍历方法的实现要点,并比较了递归与迭代的优缺点,指出递归更易理解但可能栈溢出,迭代更适合项目开发。最后特别说明了翻转二叉树的注意事项,强调中序递归遍历会导致节点翻转两次的问题,并给出了正确的迭代解法。全文提供了完整的二

2025-11-18 00:04:26 857

原创 《代码随想录-精华内容提取》06 栈与队列

本文系统讲解了栈和队列的核心概念与应用。首先介绍了二者的基础特性:栈是先进后出(LIFO),队列是先进先出(FIFO)。重点解析了用栈实现队列和用队列实现栈的相互转换方法。随后详细阐述了栈在算法中的典型应用场景:括号匹配问题(三种不匹配情况)、字符串相邻重复项删除、逆波兰表达式求值。最后介绍了两种特殊队列:滑动窗口最大值问题中的单调队列,以及求前K个高频元素时使用的优先级队列(堆结构)。全文通过代码示例和动画演示,深入剖析了这些数据结构的底层实现原理及实际应用技巧,强调了对基础知识的掌握在算法设计中的重要性

2025-11-17 23:23:59 996

原创 《代码随想录-精华内容提取》05 双指针法

本文总结了使用双指针法解决数组、字符串、链表等问题的经典案例。重点分析三数之和和四数之和问题,指出双指针法比哈希法更高效,时间复杂度从O(n^3)降为O(n^2)和O(n^4)降为O(n^3)。在字符串和链表问题中,双指针法也能显著提升效率,如反转字符串、判断链表环等。文章强调双指针法在面试中的重要性,建议掌握该方法以应对各类算法问题。

2025-11-17 23:02:43 571

原创 《代码随想录-精华内容提取》04 字符串

本文总结了字符串处理中的核心算法和解题技巧,包含以下要点: 双指针法应用:包括字符串反转、空格替换等经典问题,强调O(n)时间复杂度处理; 字符串反转技巧:介绍整体/局部反转的组合应用,如右旋转字符串的处理方法; KMP算法原理:说明前缀表的作用及在字符串匹配、重复子串问题中的应用; 注意事项:建议避免过度依赖库函数,强调理解底层实现原理的重要性; 综合案例:详细解析了反转字符串中的单词、替换数字等典型问题的解决思路和代码实现。

2025-11-17 22:51:22 922

原创 《代码随想录-精华内容提取》02 链表

这篇文章系统总结了链表的基础知识和经典算法题。主要内容包括:链表理论基础(单/双/循环链表、存储方式、节点定义和操作)、链表经典题目(移除元素、反转链表、两两交换、删除倒数节点、链表相交、环形链表检测等),以及虚拟头节点等技巧。文章通过图解和代码示例详细讲解了各题目的解题思路,特别强调了指针操作的关键技巧。作者表示这些内容既可用于当前硕博连读考核准备,也适用于未来的求职面试复习。

2025-11-17 22:20:12 911

原创 《代码随想录-精华内容提取》01 数组

本文系统总结了数组相关算法知识要点,包括: 1)理论基础:数组特性、内存连续性、元素操作限制 2)二分查找:两种区间定义(左闭右闭/左闭右开)的实现差异及循环不变量原则 3)双指针技巧:快慢指针法实现O(n)复杂度元素移除 4)滑动窗口:动态调节窗口边界实现最优解 5)模拟行为:螺旋矩阵的边界处理原则 6)前缀和:区间和计算的高效方法 7)实战应用:通过开发商购地案例展示二维数组处理技巧 文章强调算法思想的理解和代码实现的精确性,特别指出循环不变量原则在边界处理中的重要性,为面试和算法竞赛提供系统性的复习框

2025-11-17 21:52:28 838

原创 Making Images Real Again: A ComprehensiveSurvey on Deep Image Composition 图像合成综述阅读

本文综述了图像合成(对象插入)任务中的关键挑战与解决方案,重点分析了前景与背景之间的不一致性问题及其对应的子任务。研究将不一致性分为外观、几何和语义三类,并系统梳理了物体放置、图像融合、图像调和、阴影生成等子任务的技术进展。文章对比了传统方法与深度学习方法,总结了相关数据集与评估指标,并提供了开源工具库资源。针对不同应用场景,作者提出了顺序处理与端到端生成的策略比较,特别强调了扩散模型在生成式图像合成中的潜力。最后,文章讨论了前景对象搜索技术及其在遥感等领域的应用建议,为未来研究提供了方向性指导。

2025-09-22 20:31:55 1136

原创 Dispersive Loss:为生成模型引入表示学习 | 如何分析kaiming新提出的dispersive loss,对扩散模型和aigc会带来什么影响?

摘要:何恺明团队提出「DispersiveLoss」方法,巧妙弥合扩散模型与表示学习的鸿沟。该方法通过鼓励模型内部特征在隐藏空间分散分布,实现无需正样本对的对比学习机制,既保留扩散模型原有采样流程,又显著提升表示质量。相比依赖外部预训练模型的REPA方法,DispersiveLoss具有即插即用、零额外开销的优势,在ImageNet上使DiT/SiT等主流扩散模型性能持续提升,并在一步生成模型MeanFlow上创下新SOTA。该研究为生成模型引入高效表示学习提供了简洁路径,使模型在生成图像的同时获得更好的语

2025-08-02 20:01:06 1177

原创 Highly Compressed Tokenizer Can Generate Without Training

这篇ICML 2025论文提出了一个颠覆性观点:1D图像Tokenizer本身具备强大的生成能力。研究发现,高度压缩的1D令牌空间(如32个令牌)能解耦不同语义特征,通过测试时梯度优化即可实现文本引导的图像生成和编辑,无需训练专用生成模型。实验表明,该方法在FID等指标上接近SOTA生成模型,同时支持即插即用的图像编辑和修复。这一发现为生成式AI开辟了新思路:构建更强大的Tokenizer可能比训练复杂生成模型更为关键。

2025-08-02 19:24:18 979

原创 Diffuse and Disperse: Image Generation with Representation Regularization

本文提出了一种简洁有效的扩散模型正则化方法——分散损失(Dispersive Loss),通过促使模型内部特征在隐空间中分散分布,显著提升了图像生成质量。该方法仅需在标准扩散损失基础上增加一个正则化项,无需修改模型结构或引入外部数据,计算开销极小。实验表明,分散损失在DiT、SiT等多种模型上稳定提升性能10-15%,在一步生成模型MeanFlow上也取得新SOTA。这一工作揭示了通过内部表示正则化提升生成模型的有效路径,实现了生成任务与表示学习的巧妙结合。

2025-08-02 17:29:39 675

原创 ICCV2025 | SkyDiffusion: 从地面街景生成卫星视角图像, 真实、结构一致!

摘要: 本研究提出SkyDiffusion框架,首次结合鸟瞰图(BEV)与扩散模型,实现地面街景到空中图像的跨视角生成。针对传统BEV平面假设的不足,提出Curved-BEV转换方法,通过非平面映射保留建筑顶部等高层结构信息;设计Multi-to-One BEV映射策略,融合多视角街景解决遮挡问题;并构建BEV引导的扩散模型增强生成一致性。实验基于新提出的G2A-3数据集(含灾害、无人机及历史卫星场景)验证了方法的有效性,在结构一致性与视觉质量上均优于基线模型。相关成果发表于ICCV 2025,代码与数据已

2025-08-02 11:53:34 1180 2

原创 ✅ 图像预处理 Checklist 模板(适用于CV任务)

摘要:本文提供了一套完整的图像数据预处理检查清单📋,包含4个核心检查维度:1️⃣数据结构检查(格式/命名/空文件)2️⃣图像属性检查(尺寸/通道/数据类型)3️⃣模型输入检查(归一化/尺寸对齐)4️⃣调试可视化(中间结果保存)。建议封装为可复用的函数模板🔧,通过日志记录检查状态,特别强调需人工抽查样例图像👀。适用于多数据集场景下的质量把控,确保输入数据符合模型要求✅。

2025-07-01 17:28:44 307

原创 从马赛克到色彩错乱:一次前景图像处理异常的全流程踩坑记录

图像生成任务中的诡异问题排查全记录 在基于前景和背景融合的图像生成任务中,作者遇到了前景图生成后变为彩色斑点+马赛克的诡异现象。经过多阶段排查,包括文件清洗、尺寸匹配、通道检查、裁剪补全等操作后,发现问题仍未解决。最终发现核心原因是输入图像的位深不一致:前景图为16位(uint16),而模型仅支持8位(uint8)输入,导致数值范围错乱。解决方案是强制将16位图像缩放至8位范围。 经验总结: 数据检查优先:务必确认图像类型(uint8/16)、通道(RGB/BGR/Alpha)、尺寸等基础属性; 中间可视化

2025-07-01 17:20:32 929

原创 计算机视觉课程笔记-机器学习中典型的有监督与无监督学习方法的详细分类、标签空间性质、解释说明,并以表格形式进行总结

本文对比分析了有监督学习和无监督学习的主要方法。有监督学习依赖标注数据,包括分类(离散标签)和回归(连续标签)任务,典型方法如线性回归、逻辑回归、SVM等。无监督学习不依赖标签,主要用于聚类(离散输出)和降维(连续输出),典型方法如K均值、PCA、t-SNE等。两种学习方式的根本区别在于是否使用标注信息,其中标签的连续/离散特性取决于任务本质而非方法本身。表格对比展示了各类方法的输入输出特性及应用场景。

2025-06-17 19:44:08 735

原创 2025国创赛-高教主赛道·创意组评审要点整理

大学生创新创业项目评价指标体系涵盖四大维度:个人成长(30分)关注学生价值观、调研深度、知识应用及学校支持;项目创新(30分)强调问题导向、目标明确及创新成果;产业价值(25分)考察行业认知、市场定位、落地前景和社会影响;团队协作(15分)评估团队精神、结构、效能及资源整合。总分100分,要求项目兼具创新性、实践性、社会价值和团队执行力,体现高校人才培养成效。

2025-05-29 16:25:14 1954

原创 The CTeX fontset “fandol“ is unavailable in the current mode.

【摘要】当CTeX报错显示"fandol"字体不可用时,主要原因是pdfLaTeX不支持该字体。解决方案有两种:1) 最佳方案是改用XeLaTeX/LuaLaTeX编译(推荐在Overleaf中通过菜单切换编译器);2) 若必须使用pdfLaTeX,可将代码改为\usepackage[UTF8,fontset=adobe]{ctex}指定替代字体集。特别提醒,pdfLaTeX对中文支持较差,建议优先选择XeLaTeX编译方式以获得更好的中文兼容性。

2025-05-29 16:10:34 1052

原创 电子科技大学-高级算法设计与分析课程复习总提纲

判断题 10个 20分简单计算题渐进表达式 1题贪心算法 1-2题、分治法 1-2题、动态规划法 1-2题最大流最小割 1题NP相关 归约与复杂度证明题 2-3题近似算法 1-2题其他算法设计题 1题。

2025-03-18 22:28:30 1091

原创 CVPR 2025 论文和开源项目合集 | CVer-Papers-with-Code

欢迎各位大佬提交issue,分享CVPR 2025论文和开源项目!

2025-03-13 17:27:00 39514

原创 论文精读-Generate Your Own Scotland: Satellite Image Image Generation Conditioned on Maps 2023 NIPSW

论文的核心目标是解决扩散模型在地球观测 (Earth Observation, EO) 领域探索不足的问题,特别是如何利用如 OpenStreetMap (OSM) 这样的地图数据。通过条件生成逼真的卫星图像,作者希望提升 EO 分析能力,并支持数据增强、可视化等多种应用场景。

2025-01-17 19:54:45 973

原创 论文精读-RSDiff: Remote Sensing Image Generation from Text using Diffusion Model 2024 Neural Computing a

该论文的创新在于通过级联扩散模型解决了文本到遥感图像生成的语义一致性和高分辨率挑战,既降低了计算成本,又在生成质量上取得显著突破。

2025-01-15 16:41:29 1156

原创 论文精读-Method of Efficient Synthesizing Post-disaster Remote Sensing Image with Diffusion Model and LL

这篇论文通过结合扩散模型和 LLM 提出了创新的灾后遥感图像生成方法,具有以下特点:使用自然语言描述控制生成任务,增强了图像生成的可控性。通过 Hypernetworks 降低了模型微调成本。提供了高效的灾后伪样本生成工具,可用于支持灾害管理和解译任务。

2025-01-15 15:53:46 1025

原创 【已解决】服务器端直接从网页下载Huggingface全部文件-命令行方式

然后使用 sudo apt-get install git-lfs 安装git-lfs (需要管理员权限)原因分析:Huggingface被墙了,无论是git clone还是git lfs都不能直接下载到服务器了。如果嫌麻烦的话,那就手动一个一个文件的下载吧,毕竟挨个试网上解决方法的时间,早都手动下载完并且整合完了。如果你的代理需要身份验证,你可能还需要在设置文件中添加 http.proxyAuthorization。首先,确保你已经安装了 Git。如果未安装 Git,你可以从。

2025-01-13 20:24:41 1039

原创 【已解决】使用 GitHub / hugging face进行 git clone 失败问题总结

由于种种原因,国内直接从 GitHub 克隆仓库的速度可能非常慢容易失败,影响开发效率。本文将分享几种加速 git clone 的方法,显著提升克隆速度。

2025-01-12 21:05:42 2050

原创 论文精读-CRS-Diff:Controllable Remote Sensing Image Generation with Diffusion Model

♥ 创作不易,如果能帮助到你的话留下👍和⭐吧,欢迎同方向研究学者交流学习目录1. Motivation2. Contribution3. Method3.1. 引入扩散模型与多条件控制3.2. 生成流程的核心部分A. 文本到图像生成B. 图像解耦3.3. 多条件融合A. 文本条件融合B. 图像条件融合3.4. 训练策略条件控制的实现条件组合的训练机制3.5. 总结4. ExperimentA. 数据集B. 实现细节C. 评估指标D. 比较与分析文本到图像生成单一条件图像生成多条件图像生成E. 消融实验(A

2025-01-12 17:19:09 1468 1

原创 论文精读-⭐MetaEarth: A Generative Foundation Model for Global-scale Remote Sensing Image Generation

♥ 创作不易,如果能帮助到你的话留下👍和⭐吧,欢迎同方向研究学者交流学习。

2025-01-11 22:29:26 1525

原创 论文精读-GeoSynth: Contextually-Aware High-Resolution Satellite Image Synthesis CVPRW 2024

*会议:**CVPR 2024 workshop一句话总结:SD+ControlNet为baseline,SatCLIP提取地理位置特征,OSM+Canny+SAM控制,感觉是DiffusionSat(2024ICLR)的低配版,而且很多瞎写的内容;But!!资源很牛,实验很卷,可以说是文章写的很漂亮。♥创作不易,如果能帮助到你的话留下👍和⭐吧,欢迎同方向研究学者交流学习。

2025-01-09 23:26:05 913

原创 ⭐Text2Earth: Unlocking Text-driven Remote Sensing Image Generation with a Global-Scale Dataset and a

根据不同任务需求,开发了两种专用版本的:专为文本到图像生成任务优化,根据用户提供的和,生成与输入条件匹配的遥感图像。:专为图像编辑任务优化,支持基于输入文本对现有遥感图像进行,如修复、修改或增强特定区域。当前生成式模型在自然图像生成上取得了显著进展,但遥感领域的研究相对较少;现有的遥感图像-文本数据集规模较小、覆盖范围有限并且缺少遥感数据信息,无法支持全局范围的生成需求;当前的方法缺乏在多分辨率可控性和无边界图像生成方面的能力。

2025-01-08 12:12:03 1944

原创 pytorch模型保存与加载 | 在加载的模型基础上继续训练

在深度学习模型的训练过程中,因为各种原因,训练可能会中断,例如系统崩溃、意外关机或其他问题。为了避免损失已训练的进度,我们可以在PyTorch中保存和加载模型的状态,以便在重新启动训练时能够从上次中断的地方继续。

2025-01-08 10:38:05 783

原创 从小白角度解析 SDXL,SD1.5、SD2.0、SD3、SD3.5、Flux、VAR、Infinity【干货篇-最新扩散模型、自回归生成模型解析及代码公开网址大全】

SD3.5人物的手还是有问题,可能开发团队也知道这些问题,所以藏手的情况会比FLUX更明显一点。优点是SD3.5出图有时候更写实,FLUX对皮肤的绘制一般都比较油腻,SD3.5比较细腻更真实一点,长文本和提示词遵循的效果两者都差不多,美学方面有时候SD3.5会更好一些,性能方面SD3.5不如FLUX,出图比FLUX久显存占用还更多,不过目前FLUX生态更完善,所以短时间SD3.5应该还是超越不了FLUX的。

2025-01-07 20:38:36 9620

原创 基于Anydoor的超参数学习、基本配置参数学习记录

【代码】基于Anydoor的超参数学习。

2025-01-07 17:07:35 682

原创 [已解决] OSError: Can‘t load tokenizer for ‘openai/clip-vit-large-patch14‘.

Stable-diffusion安装时Can‘t load tokenizer for ‘openai/clip-vit-large-patch14‘问题解决-优快云博客。链接: https://pan.baidu.com/s/1EBptJ2v9inq9A5LEYFfBMg 提取码: dh2b。用人话翻译一下:在根目录下创建一个文件夹 《openai》,然后把下载的文件传入进去就OK了。需要手动创建openai 目录并把 下载后解压的资源拖入到openai目录下面[全文精华]

2025-01-06 17:53:11 7373 2

原创 【已解决】ModuleNotFoundError: No module named ‘ldm.util‘; ‘ldm‘ is not a package

SD代码中很常见的问题,耗时1h左右解决,搜索优快云相关博客均未得到有效解决,后续在git-issues。

2025-01-05 18:10:14 2391

原创 电子科技大学《高级算法设计与分析》期末复习问题汇总(客观题-选择题、判断题)

逻辑:由于 ( C ) 是一个顶点覆盖,所以 ( G ) 中的每条边 ( (u, v) ) 至少有一个端点 ( u ) 或 ( v ) 在 ( C ) 中。对于图 ( G ) 中的每条边 ( (u, v) \in E ),在图 ( G’ ) 中引入三个新顶点 ( x_{(u,v)}, y_{(u,v)}, z_{(u,v)} ) 和三条边 ( (x_{(u,v)}, y_{(u,v)}), (y_{(u,v)}, z_{(u,v)}), (z_{(u,v)}, x_{(u,v)}) ) 形成一个三角形。

2024-12-14 20:54:04 607

原创 DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

DreamBooth是一种个性化文生图模型:给定某个物体的几张图片作为输入,通过微调预训练的文生图模型(如Imagen),将一个独特的标识符和该物体进行绑定,这样就可以通过含有该标识符的prompt在不同场景下生成包含该物体的新颖图片。(1)最简单的方法就是随机选择一个已经存在的单词,通过这种方式构建特殊标记符会造成一些问题,随着训练的进行,模型会忘记这个单词的本来含义,并将输入图片中的物品的含义与该单词绑定。作者希望将输入图片中的物体与一个特殊标识符绑定在一起,即用这个特殊标记符来表示输入图片中的物体。

2024-11-12 23:15:32 1204

原创 ⭐LooseControl: Lifting ControlNet for Generalized Depth Conditioning

我们提出了LooseControl,以允许扩展的深度条件用于基于扩散的图像生成。ControlNet是深度条件图像生成的SOTA,可以产生出色的结果,但需要访问详细的深度图以进行指导。在许多场景中,创建这样精确的深度图是具有挑战性的。本文介绍了深度条件的通用版本,使许多新的内容创建工作流程成为可能。具体而言,我们允许(C1)场景边界控制:仅通过边界条件松散地指定场景(C2)3D盒子控制:用于指定目标对象的布局位置,而不是对象的确切形状和外观。

2024-11-11 12:09:24 1026

原创 ⭐SmartControl: Enhancing ControlNet for Handling Rough Visual Conditions

人类的视觉想象通常从类比或粗略的草图开始。例如,给定一张女孩在建筑物前弹吉他的图像,人们可能会类比地想象“如果钢铁侠在埃及的金字塔前弹吉他”会是什么样子。然而,视觉条件往往与文本提示中暗示的想象结果不完全对齐,现有的布局可控的文本到图像(T2I)生成模型通常会生成质量下降并带有明显伪影的图像。为了解决这个问题,本文提出了一种称为的新型T2I生成方法。该方法的设计目标是根据文本提示调整粗略的视觉条件。SmartControl的关键思想是放宽在与文本提示冲突的区域的视觉条件约束。

2024-11-08 15:20:50 1305

原创 ⭐DINOv2: Learning Robust Visual Features without Supervision 2023 CVPR

DINOv2 作为一种无需 fine-tuning 的自监督方法,在提取图像特征方面表现出色,适用于许多不同的视觉任务。它的开源也为广大研究者和工程师提供了一种新的选择,有望为计算机视觉领域带来更多的突破,可以期待更多基于 DINOv2 的研究工作出现。

2024-11-05 19:52:12 6807 1

原创 Linux scp命令 | 菜鸟教程-从本地复制到远程/从远程复制到本地

scp 是 secure copy 的缩写, scp 是 linux 系统下基于 ssh 登陆进行安全的远程文件拷贝命令。2.使用scp命令要确保使用的用户具有可读取远程服务器相应文件的权限,否则scp命令是无法起作用的。从远程复制到本地,只要将从本地复制到远程的命令的后2个参数调换顺序即可,如下实例。上面命令将本地 music 目录复制到远程 others 目录下。nux scp 命令用于 Linux 之间复制文件和目录。是不加密的,scp 是 rcp 的加强版。的错误信息表示你尝试复制的目标。

2024-11-05 16:10:30 4352 1

原创 SUPIR:Scaling Up to Excellence-Practicing Model Scaling for Photo-Realistic Image Restoratio CVPR 24

我们介绍了SUPIR(Scaling-UP Image Restoration),这是一种开创性的图像修复方法,利用生成先验和模型扩展的力量。SUPIR结合了多模态技术和先进的生成先验,标志着智能和真实图像修复的重大进展。模型扩展是SUPIR的关键催化剂,显著增强了其能力,并展示了图像修复的新潜力。我们收集了一个包含2000万张高分辨率、高质量图像的数据集用于模型训练,每张图像都配有详细的文本注释。SUPIR能够根据文本提示修复图像,拓宽了其应用范围和潜力。

2024-10-28 22:00:15 1384 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除