自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 收藏
  • 关注

原创 论文学习37:Single-Image-Based Deep Learning forSegmentation of Early Esophageal Cancer Lesions

本文提出的用于内窥镜图像病变分割的“一图一网络”解决方案是原创的。由此产生的YOHO框架具有两大优势:(1) 无需收集多个患者的图像数据集,从而全面保护患者的隐私;(2) 所谓的“过拟合”问题,或许是与泛化相关的最关键问题,现在得到了优雅的解决。从技术角度来看,本文的工作也做出了两大贡献。首先,文中提出的基于几何的数据增强技术,用于生成单个输入图像的训练集,这似乎是该领域的首次尝试。其次,研究过程中创建的 EEC 数据集很可能在未来研究中发挥重要作用。

2025-09-17 18:28:55 926

原创 论文学习36:Continuous Feature Representation for CamouflagedObject Detection

现有方法通常以离散的方式表示多尺度特征,导致一些对 COD 至关重要的细微判别性线索丢失。为了解决这个问题,研究人员提出了一种新颖的连续特征表示网络 (CFRN),将特征转换为连续函数,以实现准确的 COD。具体而言,本文首先采用 Swin Transformer 来提取包含全局上下文信息的多层级特征。然后,设计一个 OFM 嵌入到每一层特征中,以增强细微的判别线索,从而突出伪装物体的整体,并抑制其他干扰物体。最后,提出了一种新颖的 FIFD 来精确解码最终预测。

2025-09-15 14:30:36 1087

原创 论文35:PeftCD: Leveraging Vision Foundation Models withParameter-Efficient Fine-Tuning for Remote

本文提出了一种名为PeftCD的新型变化检测框架,该框架通过将视觉基础模型(例如SAM2、DINOv3)与参数高效微调(PEFT)策略相结合,有效地解决了遥感图像中的伪变化干扰和泛化难题。通过冻结主干中的大部分参数,同时仅训练少量附加模块,PeftCD成功地将VFM的强大先验知识迁移到变化检测任务中。在包括SYSU-CD和WHUCD在内的七个公共数据集上进行的实验表明,PeftCD在多个指标上均达到了最佳性能,尤其是在描绘变化边界和抑制伪变化方面表现出色。

2025-09-12 23:53:12 1008

原创 论文学习34:Frontiers in Intelligent Colonoscopy

本文研究智能结肠镜技术的前沿及其在多模态领域的广泛应用。研究结构遵循两条主要思路。首先,研究人员调查了四项结肠镜场景感知任务的概况,并梳理出其中的关键挑战和尚未深入研究的领域。其次,调查显示,结肠镜检查中的多模态研究尚未得到充分探索。为此,本文向社区贡献了三项创新:一个大规模多模态指令调优数据集 ColonINST、一个结肠镜检查专用的多模态语言模型 ColonGPT 以及一个多模态基准测试。

2025-09-11 15:16:29 483

原创 论文学习33:DeepSeek-V2: A Strong, Economical, and EfficientMixture-of-Experts Language Model

本文介绍了 DeepSeek-V2,这是一个支持 128K 上下文长度的大型多方位语言模型 (MoE)。除了强大的性能外,得益于其包含 MLA 和 DeepSeekMoE 的创新架构,它还具有经济的训练和高效的推理能力。实践中,与 DeepSeek 的 67B 模型相比,DeepSeek-V2 取得了显著提升的性能,同时节省了 42.5% 的训练成本,减少了 93.3% 的键值缓存,并将最大生成吞吐量提升至 5.76 倍。

2025-09-10 20:26:50 901

原创 论文学习32:Multi-Scale Cross-Dimensional Attention Networkfor Gland Segmentation

本文提出了一种多尺度跨维度注意力网络(MCANet),用于腺体分割。首先,研究人员设计了并行多尺度注意力网络,以保留像素级空间位置信息,从而更精确地分割不规则腺体形状和边界。其次,设计了一个跨维度注意力网络,用于模拟腺体空间维度之间的相互作用。在六个数据集上进行的大量实验验证了 MCANet 的有效性及其对噪声和分布外变异的鲁棒性,配对 t 检验证实了其在统计上显著的改进。然而,MCANet 在有限数据上可能出现过拟合,或对数据集特定的模式较为敏感。在未来的工作中,我们将探索提升其泛化能力的方法。

2025-09-10 13:47:47 468

原创 论文学习31:Fourier Boundary Features Network With WiderCatchers for Glass Segmentation

本文通过增强玻璃边界并缓解玻璃的反射和透光特性导致的深层结构语义信息的过度捕获,实现了高精度玻璃分割。文中水平连接设计的卷积单元 (CU),以便在强边界约束下适当地捕获大面积语义特征,同时嵌入卷积层 (CTA) 以保持特征区域的一致性。采用 FCC 可以灵活调整并有效地整合各种特征。大量实验表明,研究人员提出的 FBWC 在三个公共玻璃分割数据集上均达到了最佳性能。然而,该方法存在局限性。例如,该方法难以对被大片玻璃覆盖的建筑物进行精细分割,而由于装饰性彩色玻璃色彩丰富、图案复杂,其分割效果不佳。

2025-09-10 11:32:02 316

原创 论文学习30:LViT: Language Meets Vision Transformerin Medical Image Segmentation

本文提出了一种新的视觉语言医学图像分割模型LViT,该模型利用医学文本标注来弥补图像数据的质量缺陷,并在半监督学习中指导生成更高质量的伪标签。为了评估LViT的性能,研究人员构建了多模态医学分割数据集(图像+文本),实验结果表明,这个模型在全监督和半监督环境下均具有卓越的分割性能。此外,我们还提供了一个关于早期食管癌诊疗的示例应用,以展示文本标注如何在实际场景中发挥作用。目前,这个模型是一个二维分割模型。在未来的工作中,研究人员将把模型扩展到三维,并在更多医学数据上进行实验,以进一步验证其通用性。

2025-09-02 22:37:30 389

原创 论文29:Mobile U-ViT: Revisiting large kernel and U-shaped ViT forefficient medical image segmentation

在本研究中,提出了 Mobile U-ViT,这是一种新型的混合轻量级网络,旨在应对移动医学图像分析的挑战。通过结合 ConvUtr(一种轻量级的、受 Transformer 启发的 CNN 块嵌入)和 LKLGL 模块,Mobile U-ViT 有效地弥合了医学图像分割中计算效率和性能之间的差距。此外,带有下采样跳跃连接的级联解码器确保了局部和全局特征的有效整合,使该模型成为资源受限环境的理想选择。

2025-08-28 22:21:10 429

原创 论文学习28:LGFFM: A Localized and Globalized FrequencyFusion Model for Ultrasound Image Segmentation

在本文中,研究人员提出了一种新颖的局部和全局频率融合模型 (LGFFM),用于精确分割医学超声图像。LGFFM 的主要优势之一是它能够同时学习局部特征和全局依赖关系。此外,LGFFM 还结合频域特征来补充边缘信息,从而增强模型的泛化能力。与现有仅侧重于单域特征融合的超声图像分割方法不同,本文提出的多域融合方法能够对多个域的特征进行对齐和集成,从而进一步提升模型的性能。基于这些核心创新,文中在八个超声数据集上进行了交叉验证和跨数据集泛化评估。

2025-08-27 22:18:48 347

原创 27: SCOUT: Semi-supervised Camouflaged Object Detection by Utilizing Text andAdaptive Data Selection

本文针对现有半监督 COD 方法的不足之处,即无法自适应地选择和利用高质量数据,导致性能不佳。研究人员提出了一个创新的半监督 COD 模型 SCOUT。具体而言,本文提出了 ADAS 模块,通过对抗性增强和采样策略选择有价值的数据,从而避免无意义的数据标注。此外,研究人员提出了 TFM 模型,通过结合伪装相关知识和文本-视觉交互,充分利用指涉文本。此外,研究人员还提出了一个 RefTextCOD 数据集,其中包含大量图像级指涉文本标注。大量实验证明了所提框架和模块的有效性。

2025-08-26 22:41:41 294

原创 论文学习26: Spatial-Frequency Collaborative Learning for Camouflaged Object Detection

本文提出了一种用于伪装目标检测 (COD) 的空频协同学习网络,该网络充分利用了空间和频率信息。采用 SMT-T 作为骨干网络,可以有效提取多尺度特征。然后,设计了一个域变换融合 (DTF) 模块,从频域角度分离高频和低频信息,这有助于解决伪装目标与其背景对比度低的问题。研究人员提出了一个 CIU 模块,利用空频域的互补融合,对伪装目标进行精细校正。此外,研究人员还引入了一个边缘放大模块,以获取更准确的伪装目标边缘信息。

2025-08-25 21:02:03 382

原创 论文学习25:A Spatial-Temporal Progressive Fusion Network forBreast Lesion Segmentation in Ultrasound Vi

本文提出了一种时空渐进融合网络 (STPFNet),用于解决超声乳腺病变边界模糊和形状不规则的问题。首先,研究人员通过时间融合模块和空间融合模块充分利用时空信息。然后,他们进行了多粒度融合,融合时间、空间特征以及编码器的特征,以获取更详细的信息。研究人员在研究中还使用前一帧作为先验知识来定位病变区域。最后,构建了一个新的 UVBLS200 数据集用于乳腺病变分割。在 UVBLS200 数据集上将研究人员提出的方法与其他几种最先进的技术进行了比较评估。

2025-08-19 22:30:36 320

原创 论文学习24:Boundary-Sensitive Segmentation of SmallLiver Lesions

肝脏病变分割对于肝脏疾病的诊断和治疗至关重要,尤其是对于早期诊断至关重要的小病变。然而,由于从受限区域和模糊边界获取的特征有限,从肝脏图像中识别小病变具有挑战性。因此,本文提出了一个结合路径签名和伪装物体检测的模型来解决这个问题。路径签名侧重于边界区域以创建特定于边缘的特征,并进一步利用这些特征来改进纹理区域分割。为了防止模型直接预测的路径碎片化,研究人员利用预测边界缩小了感兴趣区域,从而获得连续且准确的单像素宽度边缘,这对于路径签名的计算至关重要。

2025-08-16 23:12:08 841

原创 论文学习23:Multi-Scale and Detail-Enhanced Segment Anything Model forSalient Object Detection

本文针对 SOD 任务提出了一个新颖的特征学习框架 MDSAM。该框架保留了 SAM 的预训练权重,同时融合了多尺度和细粒度信息。具体而言,通过在 SAM 的编码器中引入 LMSA,研究人员将 SAM 应用于 SOD,使模型能够学习多尺度信息。此外,研究人员还提出了 MLFM,以有效地融合 SAM 编码器不同层的输出特征。为了提升SOD的性能,提出了DEM来解决SAM中缺乏细粒度细节的问题。实验结果验证了该方法的有效性和强大的泛化能力。

2025-08-13 16:27:25 453

原创 论文学习22:UNETR: Transformers for 3D Medical Image Segmentation

本文提出了一种基于Transformer的新型架构,称为UNETR,用于对体积医学图像进行语义分割,并将该任务重新表述为一维序列到序列的预测问题。研究人员提出使用Transformer编码器来增强模型学习长距离依赖关系的能力,并有效地捕捉多尺度的全局上下文表征。研究人员验证了UNETR在CT和MRI模式下不同体积分割任务中的有效性。UNETR在BTCV排行榜的标准赛和自由赛中均取得了多器官分割领域的新最高水平,并在MSD数据集上优于脑肿瘤和脾脏分割的竞争方法。

2025-08-11 20:05:43 471

原创 论文学习21:Pyramid Scene Parsing Network

本文提出了一个有效的金字塔场景解析网络,用于复杂场景理解。全局金字塔池化功能提供了额外的上下文信息。研究人员还为基于 ResNet 的 FCN 网络提供了一种深度监督优化策略,并希望公开的实现细节能够帮助采用这些有用的策略进行场景解析和语义分割,并推进相关技术的发展。

2025-08-09 15:02:54 427

原创 论文学习20:SegFormer: Simple and Efficient Design for SemanticSegmentation with Transformers

本文提出了一种简单、干净且功能强大的语义分割方法 SegFormer,它包含一个无位置编码的分层 Transformer 编码器和一个轻量级的 AllMLP 解码器。它避免了以往方法中常见的复杂设计,从而实现了高效率和高性能。SegFormer 不仅在常见数据集上取得了新的 SOTA 成果,还展现出强大的零样本鲁棒性。研究人员希望这个方法能够为语义分割奠定坚实的基础,并激发进一步的研究。

2025-08-08 23:03:51 419

原创 论文学习19:Multi-view Aggregation Network for Dichotomous Image Segmentation

本文将高精度 DIS 建模为多视图物体感知问题,并提出了一个简洁、精简的多视图聚合网络,旨在在模型设计、精度和推理速度之间取得更好的平衡。为了解决多视图的目标对齐问题,本文提出了多视图互补定位模块来联合计算目标的共同注意区域。此外,本文提出的多视图互补细化模块嵌入到每个解码器块中,以充分整合互补的局部信息并弥补单视图块的语义缺陷,最终仅用一个卷积层即可完成视图重排。大量实验表明,提出的模型在 DIS 数据集上表现良好。

2025-08-06 23:37:22 398

原创 论文学习18:Bilateral Reference for High-Resolution Dichotomous Image Segmentation

本文提出了一个配备双边参考的 BiRefNet 框架,该框架可在同一框架内执行二分图像分割、高分辨率显著目标检测和隐藏目标检测。通过全面的实验,研究者发现未缩放的源图像和对信息丰富区域的关注对于生成 HR 图像中精细且细节丰富的区域至关重要。为此,研究者提出了双边参考来填充精细部分中缺失的信息(内向参考),并引导模型更加关注细节更丰富的区域(外向参考)。这显著提升了模型捕捉微小像素特征的能力。为了降低 HR 数据训练的高昂训练成本,本文还提供了各种实用技巧,以实现更高质量的预测和更快的收敛速度。

2025-08-05 23:58:18 373

原创 论文学习17:CLIP-TNseg: A Multi-Modal Hybrid Framework for Thyroid Nodule Segmentation in Ultrasound Imag

本论文提出了一种名为 CLIP-TNseg 的新方法,用于甲状腺结节分割,该方法将多模态大模型与神经网络架构相结合。通过融合文本和视觉监督,CLIP-TNseg 提高了分割的准确性、鲁棒性和泛化能力。该方法在临床应用中展现出巨大潜力,并可扩展至其他医学图像分割任务,突显了多模态学习在推动医学诊断发展方面的价值。

2025-04-02 17:27:10 434

原创 论文学习16:Learning Transferable Visual Models From Natural Language Supervision

本文研究了在自然语言处理(NLP)领域取得成功的、与具体任务无关的大规模网络预训练方法,是否可以迁移到另一个领域。研究表明,采用这一方法后,在计算机视觉领域会出现类似的行为,我们也探讨了这一研究方向的社会影响。为了优化训练目标,CLIP 模型在预训练过程中学习执行多种不同的任务。这种任务学习可以通过自然语言提示(prompting)加以利用,从而实现对许多现有数据集的零样本(zero-shot)迁移。在足够大的规模下,这种方法的性能可以与特定任务的监督学习模型相竞争,尽管仍有很大的改进空间。t=P1C7。

2025-04-02 00:24:02 841

原创 论文学习15:FINet: Frequency Injection Network for Lightweight Camouflaged Object Detection

文中提出了一种高效的频率注入网络(FINet),用于轻量级伪装目标检测(COD)。FIM 通过分别向 RGB 特征中注入细节级和目标级的频率线索,以增强轻量级主干特征。大量实验表明,FINet 在较低的模型复杂度和更快的推理速度下,仍能与大多数最新的 SOTA 方法竞争,表现出色。

2025-03-22 18:14:37 496

原创 论文学习14:EMGANet: Edge-Aware Multi-Scale Group-Mix Attention Network for Breast Cancer Ultrasound Imag

为了提高乳腺超声图像分割的准确性,文中提出了 EMGANet,该网络利用超声图像中的深层语义特征和边缘特征。我们引入了高效的 MGM 块,以提取深层多尺度语义特征。所提出的 EMGANet 具有强大的表征能力,能够精确分割癌症病灶。此外,EFE 块从 MGM 网络的多尺度输出中提取关键的边缘特征。最终,SKF 通过调整权重,有效融合浅层边缘特征与丰富的深层语义信息。EMGANet 在乳腺癌数据集上表现出卓越的分割性能,消融实验验证了所提出组件的有效性。此外,该方法在三个数据集上的表现优于多种最新的先进方法。

2025-03-22 16:57:27 580

原创 论文学习13:MSDUNet:A Model based on Feature Multi-Scale and Dual-input Dynamic Enhancement for Skin Le

本文介绍了一种名为MSDUNet的医学图像分割模型,该模型采用混合架构,集成了MSD Block和D2M模块。该模型利用深度学习算法从医学图像中学习和提取复杂特征,为医生提供更全面、更准确的信息。具体而言,所提出的MSD Block和D2M模块显著提升了皮肤癌分割任务的性能。在公开数据集上进行的实验表明,该模型取得了具有竞争力的结果,有力地支持了皮肤癌医学图像分割的进步。这些创新方法对提高诊断准确性、指导治疗决策以及推动该领域进一步研究产生了积极影响。尽管如此,本研究仍存在一些问题。

2025-03-19 18:25:59 514

原创 论文学习12:LSKANet: Long Strip Kernel Attention Network for Robotic Surgical Scene Segmentation

本文提出了一种手术场景分割网络LSKANet,该网络结合了DLKA以充分利用区域和条带状手术特征并减少局部特征相似性导致的错误识别,MAFF以在亲和矩阵的指导下融合多尺度特征图并抑制术中伪影的干扰,以及BGH的混合损失函数,以实现更准确的边界分割。在不同场景的三个数据集(EndoVis2018,CaDIS和论文中的MILS)上进行的大量实验验证了所提方法的有效性。文中的方法在这三个数据集上都取得了新的SOTA结果,并有相当大的改进。此外,LSKANet与不同的骨干网络兼容,可以显着提高它们的性能。

2025-03-19 00:01:46 1169 1

原创 论文学习10:SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation

在本文中,我们分析了以往成功的分割模型,并总结了它们所具备的优秀特性。基于这些发现,我们提出了一种定制卷积注意力模块(MSCA)和一个CNN 结构的分割网络(SegNeXt)。实验结果表明,SegNeXt 在性能上远超当前最先进的基于 Transformer 的方法。近年来,Transformer 结构的模型在各种分割任务排行榜上占据主导地位。然而,本研究表明,当 CNN 经过合理设计后,仍然能够比 Transformer 方法表现更好。

2025-03-17 23:38:33 997

原创 论文学习11:Boundary-Guided Camouflaged Object Detection

BGNet是一个由EAM(边缘注意模块)、EFM(边缘特征融合模块)和 CAM(通道注意模块)组成的统一整体,其中各个组件串行互相依赖,并相互补充。前两个模块(EAM 和 EFM)主要用于提取边界线索并引导特征学习,而 CAM 进一步增强关键特征表示。论文中的实验结果指出,CAM 和 EAM(边界线索相关模块)对性能提升的贡献比 EFM 更大。

2025-03-17 00:09:38 821

原创 论文学习9:Stepwise Feature Fusion: Local Guides Global

在本研究中,我们提出了一种新型深度学习模型 SSFormer,该模型具备强大的泛化能力和学习能力,这对于息肉分割任务至关重要。在额外的实验中,我们发现 SSFormer 在 ISIC-2018 和 2018 Data Science Bowl 基准测试中同样展现出卓越的学习能力,这表明 SSFormer 具有广阔的应用潜力,能够提升深度学习在其他医学图像分割任务中的表现。

2025-03-14 23:13:42 342

原创 论文学习8:Shallow Attention Network for Polyp Segmentation

由于数据集规模有限,息肉分割模型容易因过拟合而退化。本文尝试从两个方面缓解这一问题。针对错误的颜色因果关系,我们提出通过颜色交换来解耦图像的颜色与内容。针对小息肉难以分割的问题,我们设计了浅层注意力机制,以降低数据噪声。这些方法都有助于减少无关因素对模型的干扰。未来,我们将结合更多的先验知识,设计更具鲁棒性的特征,以消除独立因素的干扰。

2025-03-13 21:34:27 400

原创 论文学习7:Adaptive Context Selection for Polyp Segmentation

在本文中,我们认为高效地感知局部与全局上下文对于提高息肉区域定位与分割的性能至关重要。基于此,我们提出了一种基于自适应上下文选择的编码器-解码器框架,其中包含用于基于困难区域挖掘的局部上下文提取的 LCA 模块、用于每个解码器块中的全局特征表示和增强的 GCM 模块以及用于上下文信息聚合和选择的 ASM 组件。

2025-03-12 22:53:58 764

原创 论文学习6:EMCAD:Efficient Multi-scale Convolutional Attention Decoding for Medical Image Segmentation

在本文中,我们介绍了一种新型高效的多尺度卷积注意力解码器 EMCAD,专为医学图像分割中的多阶段特征聚合和细化而设计。EMCAD 采用多尺度深度卷积块,这对于捕获特征图中的不同尺度信息至关重要,而特征图是医学图像分割精度的关键因素。这种设计选择使用深度卷积而不是标准的 3×3 卷积块,使 EMCAD 非常高效。EMCAD 与较小的编码器兼容,使其非常适合即时诊断应用,同时保持高性能。

2025-03-12 21:59:31 1421

原创 论文学习5:metaformer

在本研究中,我们将 Transformer 中的注意力机制抽象为一种 token mixer,并将整体 Transformer 归纳为一种通用架构,称为MetaFormer,其中 token mixer 的具体形式并未限定。我们并未专注于特定的 token mixer,而是指出MetaFormer 本身才是保证模型取得合理性能的关键。为了验证这一观点,我们特意将 MetaFormer 的 token mixer 设定为极其简单的池化操作,并发现由此得到的PoolFormer。

2025-03-11 23:09:07 1224

原创 论文学习4: H2Former: An Efficient Hierarchical Hybrid Transformer for Medical Image Segmentation

在本研究中,为了充分利用 CNN、Transformer 的多尺度通道和 token 特征的优势,我们提出了一种用于医学图像分割的分层混合视觉 Transformer,称为 H2Former,它集成了 CNN 的归纳偏差、多尺度通道注意 token 特征和 Transformer,将它们的优点组合成一个统一的块。作为 CNN 的替代框架,H2Former 可以提高模型对多尺度长距离依赖关系和局部空间信息进行建模的能力。

2025-03-10 23:26:30 854

原创 论文学习3:MISSFormer: An Effective Medical Image Segmentation Transformer

在本文中,提出了 MISSFormer,一种位置无关的分层 U 形医学图像分割变换器,探索了全局依赖性和局部上下文捕获。所提出的增强混合块可以有效克服由前馈神经网络中卷积直接嵌入引起的特征判别限制问题,并做出判别性特征表示。基于这些核心设计,我们进一步研究了由所提出的分层变换器编码器生成的多尺度特征的集成,这对于精确分割至关重要。我们在两种不同形式的数据集上评估了所提出的方法,结果证明了 MISS Former 的有效性和鲁棒性。

2025-03-10 22:01:28 1061

原创 模块学习2

本文提出了提出了一种高效的基于transformer的语义分割模型,EDAFormer。它利用了所提出的无嵌入注意力 模块。无嵌入注意力结构可以重新思考自注意力 全局背景建模方面的机制。

2025-03-06 20:46:03 176

原创 多尺度模块特征融合模块学习1

CM-UNet: Hybrid CNN-Mamba UNet for Remote Sensing Image Semantic Segmentation学习

2025-02-20 22:31:26 776

原创 Deeplabv3学习补充

Atrous Spatial Pyramid Pooling,可以理解为空洞空间卷积池化金字塔或者多孔空间金字塔池化。这其中,包括两个概念:SPP和Atrous。SPP(Spatial Pyramid Pooling): 是一种神经网络模块,旨在通过在多个尺度上提取特征来捕获多尺度上下文信息。SPP最初在图像分类任务中被提出,后来被广泛应用于目标检测、语义分割等计算机视觉任务。Atrous:空洞卷积,在卷积核元素之间加入一些空格(零)来扩大卷积核的过程。

2024-12-11 16:30:53 1712

原创 Deeplabv3学习:一种语义分割模型

DeepLabV3 是由 Google 研究团队研发并专门用于图像语义分割的一种深度学习模型。

2024-12-04 18:38:18 2175

原创 论文学习1:SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation

图像分割在视觉理解中起着重要作用。近年来,新兴的视觉基础模型在各种任务中持续取得了优异的表现。基于这一成功的经验,在本文,我们可以证明Segment Anything Model 2(SAM2)可以成为应用于U形分割模型的一个功能强大的编码器。我们提出了一个简单但有效的框架,称其为SAM2-UNet,用于实现多功能图像分割。具体来说,此框架采用基于SAM2预训练的Hiera骨干网络作为编码器,而解码器则使用经典的U形设计。此外,我们在编码器中插入适配器,以实现高效的参数微调。

2024-11-28 17:34:15 2621

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除