- 博客(32)
- 收藏
- 关注
原创 如何在服务器中重新配置虚拟环境的cuda版本
从下往上搜索,选择cuda版本大于11.0,小于12.0,cudatoolkit 11.*的cudnn。装好pytorch后,命令行输入python,进入python的命令行,导入torch包。找到自己想要的cudatoolkit版本后,复制上图中的链接,执行如下代码下载。执行上述命令后,会显示出源内所有的cuda版本,以及下载地址,如图所示。检查是否安装成功,执行下面命令后,显示安装的版本就是安装成功了。检查是否安装成功,执行下面命令后,显示安装的版本就是安装成功了。复制上图中的链接,执行以下命令。
2025-03-31 12:33:11
305
原创 论文详读:SAM引导的面向异常检测的双流轻量化模型(A SAM-guided Two-stream Lightweight Model for AnomalyDetection)
2025-02-28在工业异常检测中,模型高效性和移动友好性成为实际应用中的首要问题。本文针对这两个关键因素,提出了基于Segment Anything(SAM)的无监督异常检测双流轻量级模型 STLM,采用的两种轻量级图像编码器由SAM的知识指导,充分利用了SAM的鲁棒泛化能力。一个流被训练为在正常和异常区域中产生区分性和一般性的特征表示,而另一个流重建相同的无异常图像,从而有效地增强了两个流表示在面对异常区域时的区分性。此外,我们。
2025-03-28 16:18:02
807
原创 RAP-SAM(RAP-SAM : Towards Real-Time All-Purpose Segment Anything)
(1)以往的分割模型使用笨重的编码器和级联解码器,导致,且。(2)以前的实时分割,但实际情况是需要多种输出。仍没有研究调查实时的通用分割任务(或实时全方位分割),也就是包括图像分割、视频实例/视频分割以及类似 SAM 的交互式分割。
2025-03-20 13:33:27
582
原创 SAM提示总结
应用场景:(1)分割多个相似物体中的一个对象(2)同时分割同一图像中的多个相同物体(3)沿视频跟踪不同的物体SAM模型:(1)SAM的能力。即对于每一幅图像,都需要在复杂的场景中准确地找到目标物体,然后使用适当的提示激活 SAM 进行分割。
2025-03-20 13:26:47
733
原创 ASLSEG: ADAPTING SAM IN THE LOOP FOR SEMI-SUPERVISED LIVER TUMOR SEGMENTATION
应用场景:医学成像任务,如心脏磁共振成像(cMRI)的短轴视图分割,可能需要模型对特定结构有更精细的识别和分割能力。SAM模型:尽管SAM在一般图像分割任务上表现出色,但在医学成像领域,特别是需要精细结构分割或精确边界划分的任务上,SAM可能面临挑战。
2025-03-20 13:24:02
397
原创 SAM多目标跟踪与分割SAM-PT论文解读Segment Anything Meets Point Tracking
现有的关于视频注释的方法大多数侧重于掩码注释和传播,这大大降低了标注的效率和模型的泛化性。本文提出的SAM-PT是:通过结合SAM的图像分割功能和PT的点跟踪功能,引入了一种以点为中心的交互式视频分割方法。它使用稀疏点传播实现了对用户查询点的有效跟踪。与传统的以对象为中心的掩码传播策略相比,本文使用点传播以利用与对象语义无关的局部结构信息。实验结果表明,基于点的分割跟踪器能够实现更好的零样本性能和高效的交互,SAM-PT在视频分割任务中取得了很强的性能,包括半监督、开放世界和全交互式视频分割。
2025-03-20 13:20:40
820
原创 SAM功能改进Per-SAM论文解读PERSONALIZE SEGMENT ANYTHING MODEL WITHONE SHOT
发表时间:2023年10月4日论文:代码:在大数据预训练的推动下,任意分割模型(SAM)作为一个强大的提示框架已经被证明是一场切分领域的革命。尽管SAM具有通用性,但在没有人工提示的情况下为特定的视觉概念定制SAM还没有得到充分的探索,例如,在众多图像中自动分割您的宠物狗。在本文中,我们为SAM引入了一种无需培训的个性化方法,称为PerSAM。对于单镜头数据,即带有参考掩码的单幅图像,我们首先在新图像中获得目标概念的正负位置。
2025-03-20 13:19:06
609
原创 SAM掩码质量总结
应用场景:特别是对于自动注释和图像/视频编辑任务,其中高度准确的图像掩码至关重要。SAM模型:(1)预测不正确,mask破损(2)粗糙的掩码边界(3)SA-1B数据集会带来巨大的成本影响,并且无法实现我们工作中所追求的高质量掩码。
2025-03-20 13:18:34
840
原创 SAM轻量化应用Auto-SAM、Group-Mix SAM、RAP-SAM、STLM
知识蒸馏(Knowledge Distillation)是一种模型压缩技术,用小型的学生模型(student model)学习模仿大型的教师模型(teacher model)的行为,提高小型模型的性能,使其在推理时的性能更接近于大型模型。在实际应用中,尤其是在资源受限的环境下,模型需要有较高的效率,能够实时处理数据并快速给出检测结果,即需要较少的计算资源和时间,模型的复杂性和内存占用也是一个重要考虑因素。,该模块将从先前的图像编码器中提取的特征图作为输入,并自动学习以下掩码编码器所需的提示。
2024-05-09 12:33:27
1603
1
原创 SAM功能改进VRP-SAM论文解读VRP-SAM: SAM with Visual Reference Prompt
发表时间:2024年3月30日论文:代码:在本文中,我们提出了VRP-SAM,通过集成视觉参考提示(VRP)编码器实现了SAM框架的创新扩展。这个附加功能使SAM能够利用视觉参考提示进行引导分割。核心方法包括通过VRP编码器编码带注释的参考图像,然后与目标图像交互,在SAM框架内生成有意义的分割提示,对目标图像中的特定对象进行分割。VRP编码器可以支持各种参考图像的注释格式,包括点、框、涂鸦和掩码。它克服了SAM现有提示格式的限制,特别是在复杂场景和大型数据集中。
2024-04-10 10:06:02
1963
2
原创 SAM掩码质量改进PA-SAM论文解读PA-SAM: Prompt Adapter SAM for High-QualityImage Segmentation
1. 简介发表时间:2024年1月23日论文:代码:SAM在许多场景下,特别是在现实世界中,在掩码预测质量方面面临着挑战。本文提出了一种新的提示驱动的SAM适配器,开发了一个高质量分割网络PA-SAM,旨在提高原始SAM的分割掩码质量。PA-SAM冻结SAM组件,只需要对提示适配器进行微调,从而在生成高质量分割图的同时保留了原始SAM强大的对象定位能力。提示适配器进行了自适应细节增强和硬点挖掘,它通过从图像中挖掘详细信息来优化稀疏提示和密集提示。
2024-04-01 21:24:28
2050
1
原创 SAM轻量化改进SAM-Lightening论文解读SAM-LIGHTENING: A LIGHTWEIGHT SEGMENT ANYTHING MODEL WITHIN DILATED FLASH
由于SAM低推理速度和高计算内存需求,SAM在实际应用中的广泛应用受到了限制,这主要源自注意力机制。现有工作集中在优化编码器上,然而尚未充分解决注意力机制本身的低效率问题,即使是在将其蒸馏到较小的模型时,这也为进一步改进留下了空间。为此,SAM-Lightening对SAM中图像编码器的重新设计,通过将自注意力操作符蒸馏成具有动态层次蒸馏的Dilated Flash Attention。它不仅促进了更高的并行性,增强了处理效率,而且还保留了与现有的Flash Attention的兼容性。
2024-03-19 18:06:43
3514
1
原创 SAM多目标跟踪与分割TAM论文解读Track Anything: Segment Anything Meets Videos
SAM图像分割能力强,与不同提示的交互性高,但它在视频的一致性分割方面表现不佳。因此,作者提出了跟踪任何模型TAM,它实现了视频中的高性能交互式跟踪和分割。具体来说,给定一个视频序列,只需很少的人为参与,即几次点击,人们就可以跟踪他们感兴趣的任何东西,并在一次推理中获得满意的结果。无需额外的训练,这种交互设计在视频对象跟踪和分割方面表现令人印象深刻。与视频目标跟踪(VOT)类似,视频对象分割(VOS)的目的是将视频序列中的目标从背景中分离出来,可以看作是一种更细粒度的目标跟踪。
2024-03-05 17:01:05
2005
原创 SAM多目标跟踪与分割SAM-track论文解读Segment and Track Anything
作者提出了一种支持多模态交互的统一视频分割模型SAM-Track,SAM-Track具有出色的跟踪和分割能力以及两种用户友好的交互模式,以适应不同应用的不同需求。对于跟踪和分割能力,SAM-Track将交互式关键帧分割模型(SAM)与作者提出的基于AOT的跟踪模型(DeAOT)结合在一起,利用高效的DeAOT跟踪模式,SAM-Track可以快速跟踪多个目标速度。还集成了,这使得该框架能够支持基于文本的交互。对于交互模式。
2024-03-05 11:30:09
3073
原创 SAM轻量级改进EfficientViT-SAM论文解读EfficientViT-SAM: Accelerated Segment Anything ModelWithout
EfficientViT-SAM在保留SAM轻量级的提示编码器和Mask解码器的同时,用EfficientViT替换了沉重的图像编码器。训练过程包括两个阶段:首先,作者使用SAM的图像编码器作为教师来训练EfficientViT-SAM的图像编码器;其次,作者使用整个SA-1B数据集端到端地训练EfficientViT-SAM。实验中全面评估了EfficientViT-SAM在一系列零样本基准测试上的表现。EfficientViT-SAM在性能和效率上显著优于所有之前的SAM模型。
2024-03-04 14:24:18
2222
1
原创 SAM轻量级改进EdgeSAM论文解读EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM
EdgeSAM是SAM的加速变体,将原始的基于ViT的SAM图像编码器提炼成纯粹的基于CNN的架构,针对智能手机等边缘设备上的高效执行进行优化,以实现实时交互式分割,促进其在各种下游任务中的集成,并在性能上的妥协最小。现有的蒸馏方案只涉及图像编码器,因此是任务不可知的,不能向学生模型揭示SAM的完整知识谱。因此,本文对各种蒸馏策略进行基准测试,提出了一种同时考虑SAM的编码器和解码器并提供特定任务监督信号的提示循环知识蒸馏方法,以便蒸馏模型能够准确捕获用户输入和掩码生成之间的复杂动态。
2024-03-03 20:39:35
3156
1
原创 SAM轻量级改进EfficientSAM论文解读EfficientSAM: Leveraged Masked Image Pretraining for Efficient SegmentAnyth
SAM巨大的计算成本限制了其在实际应用中的广泛应用,为了解决这个限制,提出了轻量级的EfficientSAM,它具有良好的性能,同时大大降低了复杂性。EfficientSAM的想法是基于利用掩码图像预训练SAMI,SAMI通过重建SAM图像编码器的潜在特征来改进掩膜图像的预训练,将视觉基础模型中的知识转移到ViT中,以实现有效的视觉表征学习。此外,采用SAMI预训练的轻量级图像编码器和掩码解码器来构建高效SAMs,并对SA-1B上的模型进行微调以进行分割任何任务。
2024-02-15 22:52:44
3039
1
原创 SAM轻量化改进目录篇:FastSAM,MobileSAM,EfficientSAMs,RepViT-SAM,EdgeSAM,EfficientViT-SAM,SAM-Lightening
2023年4月6号,Meta AI公开了Segment Anything Model(SAM),使用了有史以来最大的分割数据集Segment Anything 1-Billion mask dataset(SA-1B),其内包含了1100万张图像,总计超过10亿张掩码图,模型在训练时被设计为交互性的可提示模型,因此可以通过零样本学习转移到新的图像分布和任务中。后续将更新补充还未发表的其他文章,还会更新如何在这六个模型中训练自己的数据集,感兴趣的同学点关注,将持续更新。
2024-01-31 15:59:44
3419
3
原创 SAM掩码质量改进HQ-SAM论文解读Segment Anything in High Quality
SAM尽管使用了11亿个掩码进行训练,但SAM的掩码预测质量在许多情况下都存在不足,特别是在处理结构复杂的物体时。因此提出HQ-SAM,保持SAM原有的提示设计,使SAM具备准确分割任何目标的能力,可以在保持zero-shot能力的同时产生更高质量的掩码。HQ-SAM重用并保留了SAM的预训练模型权重,同时只引入了最小的额外参数和计算。设计了一个可学习的高质量输出Token,并注入到SAM的掩码解码器中,负责预测高质量的掩码。而不是只应用它的掩码解码器功能,HQ-SAM还。
2024-01-29 21:25:54
2775
1
原创 SAM轻量级改进Mobile-SAM论文解读FASTER SEGMENT ANYTHING: TOWARDS LIGHTWEIGHT SAMFOR MOBILE APPLICATIONS
SAM在可用的训练资源有限的情况下性能不能令人满意,这主要是由图像编码器和掩膜解码器的耦合优化引起的,为此MobileSAM提出了解耦蒸馏。具体来说,是将重型图像编码器的知识提取为轻型图像编码器来使SAM适合移动设备,该轻型编码器可与原SAM中的掩码解码器自动兼容。由于我们的MobileSAM保留了原始SAM的所有管道,只是替换了图像编码器,因此它可以即插即用地为现有的基于SAM的项目从重量级SAM转变为轻量级SAM。
2024-01-26 14:41:43
2402
1
原创 Mobile-SAM使用的知识蒸馏方法论文讲解Distilling the Knowledge in a Neural Network
通常认为,知识是模型学习到的参数 (比如卷积的权重)将知识从大模型(教师网络)转移到更适合部署的小模型(学生网络)将知识从大模型迁移到小模型,模型的结构都不同,那这些 (知识)参数怎么会迁移成功?例如教师网络在识别一张宝马车图片时,可能会误认为垃圾车,很小的概率误认为胡萝卜,这就隐含了概率相对大小里面的一些隐含知识,所以迁移知识是可行的。2. 模型输出一般模型输出包括以下三种:logits:全连接层的输出hard targets:logits 通过 one-hot 编码实现。
2024-01-24 14:36:20
1770
原创 SAM轻量级改进Fast-SAM论文解读Fast Segment Anything
任意分割模型SAM突出的问题是与模型(SAM体系结构的主要部分)相关的大量计算资源需求。因此提出了一种具有相当性能的基本任务的加速替代方法。通过将任务重新表述为全实例分割和提示引导选择两个阶段,发现具有实例分割分支的常规CNN检测器也可以很好地完成该任务。通过仅在SA-1B数据集的2%(1/50)上直接训练该CNN检测器,以高50倍的运行时速度实现了与SAM方法相当的性能,大大减少了计算和资源需求,从而实现了实时应用。
2024-01-22 20:43:51
2745
原创 Grounded Segment Anything环境配置
进入官网地址下载:https://github.com/IDEA-Research/Grounded-Segment-Anything/tree/mainhttps://github.com/IDEA-Research/Grounded-Segment-Anything/tree/main下载以下两个引用的库,下载好后放在文件夹对应的位置VISAM:BingfengYan/VISAM at d7c38233882ff9d34d5cbecb8495e175e4dffc8c (github.com)https:
2024-01-17 20:22:34
287
1
原创 SAM轻量级改进RepViT-SAM论文解读RepViT-SAM: Towards Real-Time Segmenting Anything
SAM由一个重量级的基于vit的图像编码器和一个轻量级的提示引导掩码解码器组成。其巨大的图像编码器占据了大部分的推理时间开销。
2024-01-17 20:22:02
2170
1
原创 windows环境下安装git和gitbash安装教程
从git官网下载一个git安装包,官网下载地址按照自己的环境下载,下载Windows版本的点击windows点击后有两种版本,选择需要的版本下载(建议挂梯子后再点击下载):64-bit Git for Windows Setup:需要安装,安装后右键有git GUI here和git Bash here命令64-bit Git for Windows Portable:不需要安装,解压可用,右键无git GUI here和git Bash here命令。
2024-01-15 21:44:21
1620
1
原创 Mask RCNN模型结构精讲
(1)Mask R-CNN是2017年发表的文章,一作是何恺明大神,没错就是那个男人,除此之外还有Faster R-CNN系列的大神Ross Girshick,可以说是强强联合。该论文也获得了ICCV 2017的最佳论文奖(Marr Prize)。并且该网络提出后,又霸榜了MS COCO的各项任务,包括目标检测、实例分割以及人体关键点检测任务。(2)Faster R-CNN与Mask R-CNN框架比较(3)创新点。
2023-09-27 16:12:28
867
原创 FPN模型结构精讲
1.四种利用特征的形式2.FPN针对的问题3.FPN结构4.自下而上的路径(Bottom-up pathway)5.横向连接(lateral connections)6.自下而上的路径(Top-down pathway)7.总结
2023-09-27 15:00:43
1021
原创 Faster RCNN模型结构精讲
1.模型结构2.convlayers3.RPN(区域生成网络)4.Anchor(锚)5.RoIpooling6.ClassificationandRegression7.FasterR-CNN训练8.训练数据的采样(正样本,负样本)9.总结
2023-09-27 14:47:13
920
原创 Fast R-CNN模型结构精讲
1. 训练过程2. 模型结构3. ROI pooling layer(ROI池化层)4. Multi-task loss(多任务损失函数)5. Mini-batch sampling(采样策略)6. 尺度不变性7. Truncated SVD(截断的奇异值分解)8. 主要的实验结果9.总结
2023-07-10 11:04:01
395
1
原创 R-CNN模型结构精讲
1. 模型结构2. Selective Search(候选框提取算法)3. Bounding-box regression(边界框回归)4. NMS(Non-Maximum Suppression,非极大值抑制)5. 各阶段耗时统计6. 改进的R-CNN7. 总结
2023-07-10 10:08:33
379
1
A SAM-guided Two-stream Lightweight Model for AnomalyDetection论文中的词汇、短语及句式
2025-03-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人