- 博客(82)
- 问答 (1)
- 收藏
- 关注
原创 【论文笔记-ECCV 2024】AnyControl:使用文本到图像生成的多功能控件创建您的艺术作品
近年来,文本到图像(T2I)生成领域取得了重大进展,主要是由扩散模型的进步驱动的。语言控制使有效的内容创建成为可能,但对图像生成的细粒度控制却很困难。在很大程度上,通过结合额外的用户提供的空间条件(如深度图和边缘图),然而,多控制图像合成仍然面临着一些挑战。具体而言,现有方法在处理不同输入控制信号的自由组合方面受到限制,忽略了多个空间条件之间的复杂关系,并且通常无法保持与提供的文本提示语义对齐。这可能导致次优的用户体验。
2025-02-26 16:56:43
1231
1
原创 【论文笔记-ICLR 2025 满分】IC-Light:通过实施一致的光传输,扩展基于漫射的照明协调和编辑的野外训练
基于扩散的图像生成器正在成为照明协调和编辑的独特方法。目前扩大基于扩散的照明编辑模型训练的瓶颈主要在于难以保留底层图像细节并保持内在属性(如反照率)不变。如果没有适当的约束,直接使用复杂、多样或野生数据训练最新的大型图像模型可能会产生结构引导的随机图像生成器,而不是实现精确照明操作的预期目标。我们提出了**在训练期间施加一致光 (ICLight) 传输,其根源在于物理原理,即物体在不同照明条件下的外观与其在混合照明下的外观一致。
2025-02-26 13:26:20
725
1
原创 【论文笔记-ICCV 2023】ControlNet:为文本到图像扩散模型添加条件控制
我们的解决方案是首先将条件图像添加到 εc,然后根据每个块的分辨率 wi = 64/hi,将权重 wi 乘以 Stable Diffusion 和 ControlNet 之间的每个连接,其中 hi 是第 i 个块的大小,例如,h1 = 8,h2 = 16,…在训练过程中,由于零卷积不会给网络增加噪声,因此模型应该始终能够预测高质量的图像。为了将 ControlNet 添加到这样的块中,我们锁定原始块并创建一个可训练的副本,并使用零卷积层将它们连接在一起,即 1 × 1 卷积,权重和偏差都初始化为零。
2025-02-26 13:17:29
1106
1
原创 【论文笔记-TPAMI 2024】FreqFusion:用于密集图像预测的频率感知特征融合
密集图像预测任务要求具有强类别信息和高分辨率精确空间边界细节的特征。为了实现这一点,现代分层模型通常利用特征融合,直接添加来自深层的上采样粗特征和来自较低层次的高分辨率特征。在本文中,我们观察到融合特征值在对象内的快速变化,由于高频特征的干扰导致类别内不一致。此外,融合特征中模糊的边界缺乏准确的高频,导致边界位移。基于这些观察结果,我们提出了频率感知特征融合(FreqFusion),集成了自适应低通滤波器(ALPF)发生器,偏移发生器和自适应高通滤波器(AHPF)发生器。ALPF生成器预测空间变化的低通滤波
2025-02-26 13:07:09
987
1
原创 【MMSegmentation改进】修改IoUMetric,增加Kappa系数评价指标
【MMSegmentation改进】修改IoUMetric,增加Kappa系数评价指标(支持Opencd)
2024-09-24 21:12:27
307
原创 多颜色绘制语义分割/变化检测结果图
在论文绘图时,传统的二元语义分割结果图颜色单一(下图左),所以论文中常根据混淆矩阵类别使用多颜色进行绘制(下图右),可以看到,结果的可视化效果更好。
2024-09-24 21:06:59
458
原创 【细说fine-tuning】LoRA:低秩自适应策略(附官方代码与教程)
目前诸如GPT、Llama等大型AI模型通常具有非常大的参数量,要想将其迁移到具体的下游场景任务中,利用重头训练的全局微调变得十分昂贵,对于普通研究者明显不现实,为此Microsoft提出了一种低消耗的大模型微调方法—LoRA(Low-Rank Adaptation)。$LoRA$基于适配器的思想,通过调整学习外部模块来对下游特定任务进行知识泛化,并通过可学习的秩分解矩阵设计降低模型微调与存储的开销问题。
2024-04-27 16:37:08
6933
1
原创 【论文笔记】基于预训练模型的持续学习(Continual Learning)(增量学习,Incremental Learning)
持续学习(Continual Learning, CL)旨在使模型在学习新知识的同时能够保留原来的知识信息了,然而现实任务中,模型并不能很好地保留原始信息,这也就是常说的灾害性遗忘(Catastrophic forgetting)问题。传统的CL方法需要从头开始训练模型(从随机初始化参数开始训练),目前基于大规模数据训练得到的预训练模型为持续学习带来了新的研究思路,预训练模型鲁棒的泛化性给予新任务学习较为成熟的参数,也因此基于预训练模型的CL方法已逐渐成为研究热点。
2024-04-21 22:42:52
5834
1
原创 【论文笔记】RS-Mamba for Large Remote Sensing Image Dense Prediction(附Code)
论文作者提出了RS-Mamba(RSM)用于高分辨率遥感图像遥感的密集预测任务。RSM设计用于模拟具有线性复杂性的遥感图像的全局特征,使其能够有效地处理大型VHR图像。它采用全向选择性扫描模块,从多个方向对图像进行全局建模,从多个方向捕捉大的空间特征。2D全向扫描机制是本研究的主要创新点。作者考虑到遥感影像地物多方向的特点,在VMamba2D双向扫描机制的基础上增加了斜向扫描机制。
2024-04-17 14:56:58
1396
10
原创 利用计算机视觉算法提取裂纹相关特征参数信息
使用计算机视觉相关算法提取裂缝的骨架(矢量化)、轮廓【支持提前修复断裂裂缝】,以及几何特征参数(长度、宽度、面积和主要方向)
2024-04-14 21:20:29
872
1
原创 YOLTV8 — 大尺度图像目标检测框架(欢迎star)
本项目以最新的YOLOV8为检测框架,增设多尺度,多信息的预处理模块,捕获大尺度图像的多尺度上下文信息,能够有效识别出大尺度图像的大小型识别物体以及密集型检测目标。另外,此次我们还对对原始NMS算法进行改进,以满足不同类型物体以及重叠框(尤其是位于边缘的检测框)的过滤,实现大尺度影像的精确检测。各参数信息和前文一样。:多尺度,多信息的预处理模块还未上传,但不影响正常使用,可先增大裁剪尺寸以及重叠率来避免超大物体(无法在单幅影像块中完整给出的物体)的识别不完整。
2024-04-14 21:10:55
2452
7
原创 使用训练好的MMSegmentation模型推理大尺度遥感影像(包含遥感影像裁剪和拼接代码)
使用训练好的MMSegmentation模型推理大尺度遥感影像(包含遥感影像裁剪和拼接代码)。模型推理部分采用的是MMSegmentation框架的模型,可根据自己的模型(如pytorch或tensorflow模型)情况修改该部分。
2024-03-13 19:56:23
1452
4
原创 【遥感变化检测综述】—《多时相遥感影像的变化检测研究现状与展望》
本文主要从几何和语义两个角度对变化检测方法进行了分析和归纳总结,重点分析了几何信息的利用方式及深度神经网络的特征融合方式,随后总结了常用的变化检测公开样本数据集,最后对当前变化检测应用中遇到的核心问题及未来发展趋势进行了梳理与展望。
2023-09-12 14:27:59
3849
原创 【数据结构与算法系列4】长度最小的子数组 (C++ & Python)
并返回其长度**。**如果不存在符合条件的子数组,返回。找出该数组中满足其总和大于等于。个正整数的数组和一个正整数。
2023-09-07 23:40:14
392
原创 【数据结构与算法系列2】原地移除 (C++ & Python)
元素的顺序可以改变。你不需要考虑数组中超出新长度后面的元素。不要使用额外的数组空间,你必须仅使用。的元素,并返回移除后数组的新长度。提示:使用双指针算法。
2023-09-04 02:31:47
128
原创 一文看遍半监督学习模型(Semi-Supervised Learning)
一个模型对于同一个未标记图像,在图像添加额外噪声前后的预测值应该保持一致。添加噪声的方法,如图像增强(空间维度增强、像素维度增强)。同样,Dropout可在模型结构中引入噪声。
2023-09-02 14:53:08
11874
1
原创 MMSegmentation CAM可视化脚本
最近在用MMSegmentation,想做个cam可视化,发现项目没有,就根据pytorch_grad_cam例子自己写一下,同时支持VIT系列的模型。
2023-08-23 12:58:17
896
2
转载 生成式AI系列——什么是生成对抗模型(GAN)?
生成对抗网络(GAN, Generative adversarial network)自从2014年被Ian Goodfellow提出以来,掀起来了一股研究热潮。GAN由生成器和判别器组成,生成器负责生成样本,判别器负责判断生成器生成的样本是否为真。生成器要尽可能迷惑判别器,而判别器要尽可能区分生成器生成的样本和真实样本。
2023-08-17 21:49:40
1864
2
原创 使用AnimeGAN2和anime-segmentation生成自己的漫画头像
今天我们来介绍一下怎么利用GAN生成属于的自己的漫画风头像。所需要用的生成模型为AnimeGAN2。
2023-08-17 16:05:27
924
原创 【人工智能前沿弄潮】——生成式AI系列:Diffusers应用 (2) 训练扩散模型(无条件图像生成,用于遥感领域的尝试)
无条件生成型的一种流行应用,它生成的图像看起来像用于训练的数据集中的图像。与文本或图像到图像模型不同,。它只生成与其训练数据分布相似的图像。通常,通过在特定数据集上微调预训练模型可以获得最佳结果。本教程主要来自官方教程,结合一些自己的修改,以支持训练本地数据集。我们首先依据官方教程,利用史密森尼蝴蝶数据集的子集上从头开始训练,以生我们自己的的。最后因为我是搞遥感方向的(测绘小卡拉米),所以利用进行训练尝试,遥感影像使用的是煤矿区的无人机遥感影像,主要就是裸地和枯草,有的还有一些因为煤矿开采导致的地裂缝。
2023-08-13 19:59:23
1923
1
原创 【人工智能前沿弄潮】——生成式AI系列:扩散模型及稳定扩散模型
与GAN 利用生成器和判别器进行对抗训练来生成图像不同,扩散模型则是通过对生成的随机噪声进行循环去噪来生成图像,就有点像雕刻一样,一块原石,随着大师一点一点地去除掉多余的部分,剩下的就是完美的艺术品。所使用的随机噪声需要和生成的目标图像具有相同的高宽。在扩散模型的去噪过程中,去噪的步骤数(step)是人工提前定好的,如1000等。这个step不仅是步骤数,也代表着噪声的严重程度信息。并且每次去噪所的Denoise 模块是同一个,进行反复使用。
2023-08-11 00:53:13
2112
原创 【人工智能前沿弄潮】—— SAM系列:SAM自动生成物体mask
由于SAM可以高效处理提示,可以通过在图像上抽样大量的提示来生成整个图像的mask。这种方法被用来生成数据集SA-1B。类实现了这个功能。它通过在图像上的网格中对单点输入提示进行抽样,从每个提示中SAM可以预测多个mask。然后,使用非极大值抑制对mask进行质量过滤和去重。其他选项允许进一步提高mask的质量和数量,例如在图像的多个裁剪上运行预测,或者对mask进行后处理以去除小的不连通区域和孔洞。
2023-08-09 19:05:04
3666
2
原创 【人工智能前沿弄潮】—— SAM系列:SAM从提示生成物体mask
Segment Anything Model(SAM)根据指示所需的对象来预测对象掩码。该模型首先将图像转换为图像嵌入,从而可以从提示中高效地生成高质量的掩码。类为模型提供了一个简单的接口来提示模型。用户可以首先使用set_image方法设置图像,该方法会计算所需的图像嵌入。然后,可以通过predict方法提供提示,以从这些提示中高效地预测掩码。模型可以接受点和框提示以及先前迭代预测的掩码作为输入。
2023-08-09 19:01:07
2605
原创 【人工智能前沿弄潮】—— SAM系列:玩转SAM(Segment Anything)
SAM的出现是否示意着传统CV行业的落寞?随着Chatgpt、扩散模型等产品出现,等成为了如今超级火热的话题。分割一切,Facebook利用超大数据集训练出来的SAM模型给CV界带来了巨大冲击,使得prompt engineering提示工程在CV领域同样得到发展应用,这也给我们众多计算机视觉研究者带来启发,基于大数据实现各类型场景视觉任务的可prompt模型,甚至统一视觉范式的终极大模型离我们越来越近。
2023-08-09 18:49:54
674
原创 【深度学习注意力机制系列】—— CBAM注意力机制(附pytorch实现)
CBAM旨在克服传统卷积神经网络在处理不同尺度、形状和方向信息时的局限性。通道注意力和空间注意力。通道注意力有助于增强不同通道的特征表示,而空间注意力有助于提取空间中不同位置的关键信息。总之,CBAM模块通过自适应地学习通道和空间注意力权重,以提高卷积神经网络的特征表达能力。通过将通道注意力和空间注意力结合起来,CBAM模块能够在不同维度上捕获特征之间的相关性,从而提升图像识别任务的性能。
2023-08-09 14:44:53
65015
17
原创 【深度学习注意力机制系列】—— SCSE注意力机制(附pytorch实现)
SCSE注意力模块(来自论文[1803.02579] Concurrent Spatial and Channel Squeeze & Excitation in Fully Convolutional Networks (arxiv.org))。其对SE注意力模块进行了改进,提出了cSE、sSE、scSE三个模块变体,这些模块可以增强有意义的特征,抑制无用特征。今天我们就分别讲解一下这三个注意力模块。cSE模块引入了通道注意力机制,可有效的对通道维度的特征信息进行整合增强,这一点与SE等传统通道注意力机制
2023-08-09 13:56:48
8020
原创 【深度学习注意力机制系列】—— SKNet注意力机制(附pytorch实现)
SKNet是一种创新的深度神经网络架构,通过引入选择性的多尺度卷积核和注意力机制,提升了特征提取的能力。其核心结构包括选择模块和SK卷积层,能够有效地融合多尺度信息、自适应地调整卷积核的尺度,并减少计算成本。这使得SKNet在图像分类和目标检测等任务中取得了优越的性能。
2023-08-09 12:55:32
10637
6
原创 【深度学习注意力机制系列】—— ECANet注意力机制(附pytorch实现)
ECANet是一种高效的神经网络架构,通过引入通道注意力机制,能够有效地捕捉图像中的通道关系,提升特征表示的能力。它的结构包括通道注意力模块和嵌入式通道注意力模块,具有高效性、提升特征表示和减少过拟合等优势。通过这种设计,ECANet在图像处理任务中取得了优越的性能。
2023-08-08 17:41:24
15630
原创 【深度学习注意力机制系列】—— SENet注意力机制(附pytorch实现)
SENet(Squeeze-and-Excitation Networks)注意力机制在通道维度上引入注意力机制,其核心思想在于通过网络根据loss去学习特征权重,使得有效的feature map权重大,无效或效果小的feature map权重小的方式训练模型达到更好的结果。SE block嵌在原有的一些分类网络中不可避免地增加了一些参数和计算量,但是在效果面前还是可以接受的 。Sequeeze-and-Excitation(SE) block并不是一个完整的网络结构,而是一个子结构,可以嵌到其他分类或检测
2023-08-08 16:56:51
3691
原创 【深度学习可视化系列】—— CAM可视化(以语义分割网络为例,支持Vit系列主干网络的分割模型,支持GradCAM, GradCAMPlusPlus, LayerCAM等cam可视化方法)
【深度学习可视化系列]】—— CAM可视化(以语义分割网络为例,支持Vit系列主干网络的分割模型,支持GradCAM, GradCAMPlusPlus, LayerCAM等cam可视化方法)
2023-08-08 16:05:18
3027
7
原创 【模型加速部署】—— Pytorch自动混合精度训练
torch. amp为混合精度提供了方便的方法,其中一些操作使用torch.float32(浮点)数据类型,而其他操作使用精度较低的浮点数据类型(lower_precision_fp):torch.float16(half)或torch.bfloat16。一些操作,如线性层和卷积,在lower_precision_fp中要快得多。其他操作,如缩减,通常需要float32的动态范围。混合精度试图将每个操作与其适当的数据类型相匹配。
2023-08-08 15:33:01
3868
原创 【深度学习可视化系列】—— 特征图可视化(支持Vit系列模型的特征图可视化,包含使用Tensorboard对可视化结果进行保存)
深度学习可视化系列——搭建深度学习特征图提取及其可视化流程,并使用tensorboard对可视化结果进行保存。
2023-08-08 15:11:58
2391
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人