- 博客(77)
- 收藏
- 关注
原创 StableDiffusion后的新秀Flux使用分享与总结
本文分析了Flux模型的显存需求和版本区别。作者使用V100 32G显卡测试发现,Flux基础版需要约37GB显存,主要组件包括11.9B参数的Transformer、4.76B参数的T5编码器和83M参数的VAE。相比Stable Diffusion 3.5的13.72B参数,Flux参数更多但架构更优。Flux由Stable Diffusion原团队开发,采用混合架构和并行扩散Transformer技术,在图像细节和生成速度上表现突出。
2025-08-26 19:24:29
1485
2
原创 Stable Diffusion 各版本技术详解文档
本文对Stable Diffusion各版本模型进行了参数和显存占用的对比分析。结果显示,从SD1.5到SD3,模型参数量从1.07B增长至8.03B,显存需求从8073 MiB增至22195 MiB。其中SDXL 1.0参数量达3.47B,SD3 Medium的MMDiT架构参数量达2028.33M。实验使用V100 32G显卡,通过代码计算各组件参数量,为模型选择提供参考依据。
2025-08-18 12:41:19
1920
原创 Stable Diffusion 环境配置详细指南
本文记录了在服务器上重建Stable Diffusion运行环境的完整过程:首先创建Python 3.10虚拟环境并安装核心依赖包(diffusers、transformers等),随后补充安装PEFT、protobuf、sentencepiece等必要库;接着配置HuggingFace认证和可选的下载加速代理。文章详细列出了安装过程中可能遇到的报错及解决方法,并展示了成功安装的版本信息。
2025-08-15 10:10:11
964
原创 图像生成适配器对比与选择:LoRA、ControlNet、T2I-Adapter 与 IP-Adapter
LoRA通过低秩矩阵微调预训练模型,实现特定任务记忆;ControlNet利用双分支结构精确控制图像生成;T2I-Adapter通过图像编码器增强文本提示;IP-Adapter则通过解耦注意力机制实现零样本风格适配。这些方法在参数量、训练数据和功能侧重上各有特点,适用于不同生成需求。
2025-08-15 10:07:00
1447
原创 主流多模态大模型使用总结
本文测试了多模态大模型在不同硬件配置下的显存占用情况,重点分析了Qwen2.5-VL系列模型的参数规模与显存需求。测试显示:8G显存的4060显卡最多支持2-3B参数模型,32G显存的V100单卡可加载13-14B参数模型,而72B参数的Qwen2.5-VL量化版需双卡64G显存。文章提供了Qwen、LLaVA、BLIP2等多个视觉-语言模型的详细参数对照表,包括3B到72B不同规模的模型显存占用数据.
2025-08-08 20:03:47
2068
原创 LoRA微调的代码细节
本文介绍了LoRA(低秩自适应)在UNet交叉注意力层的应用原理与实现方法。LoRA通过将权重矩阵分解为低秩矩阵乘积(ΔW=BA),仅训练A和B两个小矩阵,显著减少可训练参数(如16秩时仅3.12%参数)。该方法通过权重冻结和低秩控制,保留预训练模型能力的同时适配新任务。关键实现包括:1)在注意力层的Q/K/V矩阵插入LoRA适配器;2)A矩阵采用小随机值初始化,B矩阵初始化为零;3)输出为原始权重与LoRA调整量的加权和。
2025-08-08 20:00:42
1376
原创 (2023ICML)BLIP-2:使用冻结图像编码器和大语言模型引导语言-图像预训练
BLIP-2提出了一种高效的多模态预训练方法,通过两阶段训练策略和轻量级查询转换器(Q-Former)有效连接冻结的图像编码器和大型语言模型(LLM)。该方法采用188M参数的Q-Former作为视觉瓶颈,使用32个可学习查询嵌入提取语义化视觉特征,显著降低了传统多模态模型的计算成本(从百万美元级降至千美元级)。第一阶段通过对比学习、匹配和生成任务实现视觉-语言表征对齐;第二阶段将视觉特征作为软提示输入冻结LLM,避免语言能力退化。
2025-08-04 19:01:27
1256
原创 (2022ICML)BLIP:用于统一视觉语言理解和生成的自引导语言图像预训练
BLIP提出了一种创新的视觉-语言预训练模型,通过多模态混合编码-解码器(MED)架构和CapFilt数据清洗策略,实现了理解与生成任务的统一支持。MED采用共享参数设计,包含单模态编码器、图像匹配文本编码器和解码器,分别优化对比学习、图文匹配和语言生成目标。CapFilt通过生成合成文本并过滤噪声数据,将数据集规模扩展至24.7M,显著降低了噪声率。实验表明,BLIP在图像描述、VQA和图文检索任务上均取得优异性能,验证了其架构设计的有效性和数据策略的实用性。
2025-08-04 18:57:55
1094
原创 LoRA、ControlNet与T2I Adapter的区别
扩散模型微调技术对比:LoRA、ControlNet与T2I-Adapter LoRA通过低秩矩阵实现高效微调,适合风格迁移但控制力弱;ControlNet采用复制-隔离结构实现强约束,适合精确结构控制但训练成本高;T2I-Adapter通过轻量适配器支持多条件融合,平衡灵活性与效率。
2025-07-25 18:40:26
1098
原创 (2023AAAI)T2I-Adapter:学习挖掘文本到图像扩散模型的更可控能力
文章摘要 T2I-Adapter是一种创新方法,通过轻量级适配器模块增强预训练文本到图像(T2I)模型的控制能力,无需修改原始模型参数。该方法支持多种控制条件(如草图、深度图、语义分割图等),并引入空间调色板实现精确颜色控制。关键创新包括非均匀时间步采样策略,强化早期生成阶段的条件引导;以及多条件组合机制,通过权重调节灵活整合不同控制信号。实验表明,T2I-Adapter在保持生成质量的同时,显著提升了图像生成的可控性,支持复杂场景的精确合成,为T2I模型的实际应用提供了更高效的解决方案。
2025-07-25 18:37:25
995
原创 《LoRA:高效的深度学习模型微调技术及其应用》
LoRA技术:高效微调大型深度学习模型 LoRA(低秩适应)是一种创新的深度学习模型微调技术,通过低秩分解原理将权重矩阵更新分解为两个小矩阵的乘积,大幅降低微调所需的计算资源和参数数量。该方法应用于Transformer等架构时,仅需更新少量低秩参数,同时冻结原始权重,实现了高效微调。实验表明,LoRA在自然语言处理、计算机视觉等任务中性能接近全参数微调,但计算成本显著降低。该技术特别适合资源受限场景下的大型模型适配,为深度学习模型的快速部署和个性化应用提供了可行方案。
2025-07-10 16:16:03
1533
原创 2023ICCV,《ControlNet:向文本到图像扩散模型添加条件控制》
ControlNet创新性地解决了传统扩散模型在空间结构控制上的不足,通过双分支架构和零卷积技术实现对生成过程的精细调控。其核心是冻结原始U-Net模型保留生成能力,同时训练副本分支学习条件信号(如边缘图、深度图等)与生成的映射关系。零卷积层初始化为零确保训练稳定性,逐步学习条件控制逻辑。该方法支持多模态输入,在图像编辑、3D建模等场景展现强大控制力。实验表明,ControlNet能在不破坏原模型能力的前提下实现像素级精确控制,为可控生成领域树立了新标准。未来可拓展多条件融合和动态控制等方向,进一步释放生成
2025-07-09 16:44:49
1152
原创 (2022CVPR)InstructPix2Pix:学习遵循图像编辑
《InstructPix2Pix:基于自然语言指令的图像编辑方法研究》 摘要: 本研究提出了一种创新的图像编辑方法InstructPix2Pix,通过融合GPT-3和Stable Diffusion模型,实现了根据自然语言指令进行图像编辑的目标。研究首先利用微调后的GPT-3生成图像编辑指令及对应的文本描述,再结合Prompt-to-Prompt方法创建包含45万样本的高质量训练数据集。在此基础上,构建了基于条件扩散模型的图像编辑系统,通过改进模型架构和引入无分类器扩散引导机制,实现了对真实图像的零样本泛化
2025-07-09 16:11:49
815
原创 2020CVPR速读:SiamBAN,用于视觉跟踪的Siamese框自适应网络
在本文中,作者利用全卷积网络的表达能力,提出了一种简单而有效的视觉跟踪框架,名为 SiamBAN,它不需要多尺度搜索模式和预定义的候选框。SiamBAN 直接在统一网络中对目标进行分类并回归边界框。因此,视觉跟踪问题变成了分类-回归问题。对六个视觉跟踪基准的广泛实验表明 SiamBAN 实现了最先进的性能并以 40 FPS 运行,证实了其有效性和效率。
2025-03-09 21:03:43
1098
原创 2021CVPR速读:TransT,基于Transformer 的视觉跟踪
在这项工作中,作者提出了一种基于 Transformer-like 特征融合网络的新颖、简单且高性能的跟踪框架。所提出的网络仅使用注意机制进行特征融合,其中包括基于自注意的自我上下文增强模块和基于交叉注意的跨特征增强模块。注意力机制建立长距离特征关联,使跟踪器自适应地关注有用信息并提取丰富的语义信息。所提出的融合网络可以代替相关性来合成模板和搜索区域特征,从而促进目标定位和边界框回归。许多基准测试的大量实验结果表明,所提出的跟踪器在以实时速度运行时,其性能明显优于最先进的算法。
2025-03-09 21:01:26
1152
原创 2022IJCAI速读:SparseTT,使用稀疏Transformers进行视觉跟踪
在这项工作中,作者通过一种新颖的稀疏 Transformer 跟踪器来增强基于 Transformer 的视觉跟踪。Transformer 中的稀疏自注意力机制缓解了普通自注意力机制因集中于全局背景而忽略最相关信息的问题,从而突出了搜索区域中的潜在目标。此外,引入双头预测器来提高分类和回归的准确性。实验表明,作者的方法在以实时速度运行时,可以在多个数据集上显著优于最先进的方法,这证明了我们方法的优越性和适用性。此外,作者方法的训练时间仅为 TransT 的 25%。总的来说,这是进一步研究的新的良好基线。
2025-03-09 20:54:18
1258
原创 2022IJCAI:SparseTT,使用稀疏Transformers进行视觉跟踪
在这项工作中,作者通过一种新颖的稀疏 Transformer 跟踪器来增强基于 Transformer 的视觉跟踪。Transformer 中的稀疏自注意力机制缓解了普通自注意力机制因集中于全局背景而忽略最相关信息的问题,从而突出了搜索区域中的潜在目标。此外,引入双头预测器来提高分类和回归的准确性。实验表明,本文方法在以实时速度运行时,可以在多个数据集上显著优于最先进的方法,这证明了该方法的优越性和适用性。此外,本文方法的训练时间仅为 TransT 的 25%。总的来说,这是进一步研究的新的良好基线。
2025-03-09 20:46:28
794
原创 2023TPAMI:TransT-M,基于Transformer的视觉跟踪改进
本文在TransT的基础上进行改进。首先,作者为TransT设计了一个分割分支,通过统一的框架完成边界框预测和实例分割。其次,作者用多模板方案和IoU预测设计进一步扩展了TransT。多模板方案记录目标的时间信息和外观变化。IoU预测头控制模板更新。
2025-03-09 20:41:20
328
原创 2021CVPR-TransT:基于Transformer 的视觉跟踪
在这项工作中,作者提出了一种基于 Transformer-like 特征融合网络的新颖、简单且高性能的跟踪框架。所提出的网络仅使用注意机制进行特征融合,其中包括基于自注意的自我上下文增强模块和基于交叉注意的跨特征增强模块。注意力机制建立长距离特征关联,使跟踪器自适应地关注有用信息并提取丰富的语义信息。所提出的融合网络可以代替相关性来合成模板和搜索区域特征,从而促进目标定位和边界框回归。许多基准测试的大量实验结果表明,所提出的跟踪器在以实时速度运行时,其性能明显优于最先进的算法。
2025-03-09 20:32:37
982
原创 2020CVPR-SiamBAN:用于视觉跟踪的Siamese框自适应网络
在本文中,作者利用全卷积网络的表达能力,提出了一种简单而有效的视觉跟踪框架,名为 SiamBAN,它不需要多尺度搜索模式和预定义的候选框。SiamBAN 直接在统一网络中对目标进行分类并回归边界框。因此,视觉跟踪问题变成了分类-回归问题。对六个视觉跟踪基准的广泛实验表明 SiamBAN 实现了最先进的性能并以 40 FPS 运行,证实了其有效性和效率。
2025-03-09 20:26:09
299
原创 论文速读:目标检测跟踪——SiamCAR(2019CVPR)
在本文中,我们提出了一个称为 SiamCAR 的 Siamese 分类和回归框架,用于端到端训练用于视觉跟踪的深度 Siamese 网络。我们证明跟踪任务可以以逐像素的方式解决,并采用简洁的全卷积框架。所提出的框架结构非常简单,但在 GOT-10K 和许多其他具有挑战性的基准测试上实现了最先进的结果。它还在 LaSOT 等大型数据集上取得了最先进的结果,这证明了我们的 SiamCAR 的通用性。
2025-01-18 18:24:02
1292
原创 SiamCAR(2019CVPR):用于视觉跟踪的Siamese全卷积分类和回归网络
在本文中,我们提出了一个称为 SiamCAR 的 Siamese 分类和回归框架,用于端到端训练用于视觉跟踪的深度 Siamese 网络。我们证明跟踪任务可以以逐像素的方式解决,并采用简洁的全卷积框架。所提出的框架结构非常简单,但在 GOT-10K 和许多其他具有挑战性的基准测试上实现了最先进的结果。它还在 LaSOT 等大型数据集上取得了最先进的结果,这证明了我们的 SiamCAR 的通用性。
2025-01-18 18:16:43
515
原创 论文速读:RepVGG(2021CVPR)——谁说这VGG老了,这VGG可太好用了
我们提出了 RepVGG,一种由 3×3 卷积和 ReLU 组成的堆栈的简单架构,特别适合 GPU 和专用推理芯片。通过我们的结构重新参数化方法,它在 ImageNet 上达到了超过 80% 的 top-1 精度,并且与最先进的模型相比,显示出有利的速度与精度权衡。
2025-01-18 18:10:22
1549
原创 RepVGG(2021CVPR):谁说这VGG老了,这VGG可太好用了
我们提出了 RepVGG,一种由 3×3 卷积和 ReLU 组成的堆栈的简单架构,特别适合 GPU 和专用推理芯片。通过我们的结构重新参数化方法,它在 ImageNet 上达到了超过 80% 的 top-1 精度,并且与最先进的模型相比,显示出有利的速度与精度权衡。
2025-01-18 18:06:15
189
原创 详解数据增强中的平移shft操作
是指在数据增强(data augmentation)过程中,通过对输入图像或目标进行位置偏移(平移),让目标在图像中呈现出不同的位置。Shift 平移的目的是增加训练数据的多样性,从而提高模型对目标在不同位置上的泛化能力。假设我们有一张 255×255像素的图像,目标位于中心位置。
2025-01-11 11:12:25
1668
原创 论文速读:SiamRPN++,利用深度网络实现Siamese视觉跟踪的进化
在本文中,我们提出了一个统一的框架,称为 SiamRPN++,用于端到端训练用于视觉跟踪的深度 Siamese 网络。 我们展示了如何在Siamese跟踪器上训练深度网络的理论和经验证据 我们的网络由多层聚合模块和深度相关层组成,多层聚合模块组装连接层次结构以聚合不同级别的表示,深度相关层使我们的网络能够减少计算成本和冗余参数,同时还能实现更好的收敛。
2025-01-11 10:52:41
2049
原创 SiamRPN++(2019CVPR):利用深度网络实现Siamese视觉跟踪的进化
本文中,我们提出了一个统一的框架,称为 SiamRPN++,用于端到端训练用于视觉跟踪的深度 Siamese 网络。 我们展示了如何在Siamese跟踪器上训练深度网络的理论和经验证据 我们的网络由多层聚合模块和深度相关层组成,多层聚合模块组装连接层次结构以聚合不同级别的表示,深度相关层使我们的网络能够减少计算成本和冗余参数,同时还能实现更好的收敛。
2025-01-11 10:46:23
351
原创 什么是卷积网络中的平移不变性?平移shft在数据增强中的意义
Shift 平移是指在数据增强(data augmentation)过程中,通过对输入图像或目标进行位置偏移(平移),让目标在图像中呈现出不同的位置。Shift 平移的目的是增加训练数据的多样性,从而提高模型对目标在不同位置上的泛化能力。1.1、平移的定义平移是将目标或图像内容在水平或垂直方向上移动。平移范围(shift range):定义平移的最大像素数,例如 ±16 像素表示目标可以随机移动 -16 到 +16 像素。1.2、操作步骤以图像为例:输入。
2025-01-11 10:39:10
1719
原创 目标检测跟踪中的Siamese孪生网络与普通卷积网络(VGG、ResNet)有什么区别?
Siamese网络又叫孪生网络,是一种特殊的神经网络架构,由一对(或多对)共享参数的子网络组成,用于学习输入样本之间的相似性或关系。最早在 1994 年由 Bromley 等人提出,最初被用于签名验证任务。目前广泛应用于目标检测跟踪领域中,基本已经作为目标跟踪的backbone了。例如,人脸识别场景中,如果你需要在一个大规模数据库中快速找到与给定人脸最相似的人,Siamese 网络会更高效和灵活。例如人脸验证(是否是同一个人)、签名验证。学习样本之间的相似性度量。如图像检索、推荐系统。
2025-01-11 10:20:03
1669
2
原创 计算机视觉高频面试题——求两个检测框的IOU
输入:a_box = [45,45,155,155],b_box = [50,50,150,150]给定两个检测框的左上角和左下角坐标,求两个检测框之间的交并比IOU。然后求两个检测框的IOU。首先求两个检测框的交集。
2024-12-28 15:52:53
236
原创 目标检测中的正负样本是什么,是如何起作用的?
Anchor-based中,如果一个候选框(Anchor)与目标框的重叠程度(IoU,交并比)大于一定阈值,可以被认为是正样本。而如果该检测框被认为是负样本,也就是模型认为该检测框没有框中感兴趣的目标,仅仅是包含了一些背景,那么该框仅仅会进行置信度的预测。对于一个检测框,如果被认为是正样本(有目标),则yi=1,那么等式右边的第二项就为0了,此时变成了。对于一个检测框,如果被认为是负样本(纯背景),则yi=0,那么等式右边的第一项就为0了,此时变成了。,预测置信度越接近大,则Lobj也越大。
2024-12-28 15:33:55
2078
原创 论文速读,YOLOX:anchor free的单阶段目标检测模型
在本报告中,旷视团队介绍了对YOLO系列的一些经验丰富的改进,形成了一种新的高性能检测器——YOLOX。我们将 YOLO 检测器切换为无锚模式,并采用其他先进的检测技术,即解耦头和先进的标签分配策略 SimOTA,以在大规模模型范围内实现最先进的结果。此外,旷视团队使用单个 YOLOX-L 模型赢得了流感知挑战(CVPR 2021 自动驾驶研讨会)第一名。
2024-12-20 11:58:40
931
原创 本地电脑使用命令行上传文件至远程服务器
scp C:/Users/"你的用户名"/Desktop/environment.yml ws:~/environment.yml。其中,C:/Users/“你的用户名”/Desktop/environment.yml是本地文件的路径,~/environment.yml是远程服务器的home路径(不一定非要home路径,自己决定),中间的ws:代表要上传的目的服务器(我这里给服务器取了别名,一般使用服务器ip地址)。
2024-12-19 19:16:37
1144
原创 本地电脑生成SSH公钥私钥对,用于SSH远程连接服务器
生成方式:打开Windows的cmd,输入Windows命令行命令ssh-keygen,然后一直回车回车回车。C:\Users\“你的用户名”\.ssh\id_rsa.pub ==> 这个是公钥,用于配置到服务器。将公钥文件id_rsa.pub配置到服务器中,以便你能够在本地电脑通过ssh来访问该Linux服务器。4、也可以直接使用cmd输入SSH登录命令连接远程服务器,连接成功后输入exit就能退出连接。C:\Users\“你的用户名”\.ssh\id_rsa ==> 这个是私钥。
2024-12-19 19:11:16
2984
原创 YOLOX:anchor free的单阶段目标检测
在本报告中,旷视团队介绍了对YOLO系列的一些经验丰富的改进,形成了一种新的高性能检测器——YOLOX。我们将 YOLO 检测器切换为无锚模式,并采用其他先进的检测技术,即解耦头和先进的标签分配策略 SimOTA,以在大规模模型范围内实现最先进的结果。此外,旷视团队使用单个 YOLOX-L 模型赢得了流感知挑战(CVPR 2021 自动驾驶研讨会)第一名。
2024-12-19 17:17:32
181
原创 2021TCSVT,VDM-DA:面向无源数据域自适应的虚拟域建模
本文提出了一种称为虚拟域建模的域适应(VDMDA)的新方法,用于无源数据的无监督域适应(SFUDA)。为了学习域不变表示以减少不可访问的源域和目标域之间的分布差距,我们提出使用高斯混合来建模一个中间虚拟域,该域具有与高级特征空间中未观察到的源数据相似的数据分布模型(GMM),我们的虚拟域构建过程很简单,无需引入任何额外的可学习参数。我们通过使用新提出的不确定性感知对齐策略进一步将目标域与虚拟域对齐,以提高目标域中的类内紧凑性。针对不同跨域对象识别任务对 2D 图像和 3D 点云进行的大量实验证
2024-11-16 18:42:28
1390
1
原创 CVPR2021:领域迁移领域的适应性知识可视化
本文研究了UDA中自适应知识可视化的科学问题。具体而言,我们提出了一种无源图像翻译(SFIT)方法,该方法在源和目标模型的指导下,从原始目标图像生成源样式图像。源模型上的翻译图像与目标模型上的目标图像获得了相似的结果,表明成功地描述了适应的知识。这些图像也表现出源风格,风格迁移的程度遵循了UDA方法的性能,这进一步验证了更强的UDA方法可以更好地解决域之间的分布差异。我们表明,生成的图像可以应用于微调目标模型,并可能有助于其他任务,如增量学习。
2024-11-15 15:49:03
1216
原创 论文速读:动态再训练-更新用于无源目标检测的Mean Teacher(ECCV2024)
本文重点研究了在源域不可用的情况下,域自适应目标检测所面临的挑战。本文探讨了自训练均值教师框架恶化的原因,并提出了相应的改进措施。具体来说,我们引入了动态再训练更新机制来促进学生和教师模型的共同进化。在各种SFOD基准测试中,我们的方法显著提高了自训练范式的稳定性和适应性,实现了甚至可与先进的UDA方法相媲美的最先进性能。
2024-11-06 22:49:08
1120
故障诊断六分类数据集,免费下载
2024-09-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅