自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 论文学习17:CLIP-TNseg: A Multi-Modal Hybrid Framework for Thyroid Nodule Segmentation in Ultrasound Imag

本论文提出了一种名为 CLIP-TNseg 的新方法,用于甲状腺结节分割,该方法将多模态大模型与神经网络架构相结合。通过融合文本和视觉监督,CLIP-TNseg 提高了分割的准确性、鲁棒性和泛化能力。该方法在临床应用中展现出巨大潜力,并可扩展至其他医学图像分割任务,突显了多模态学习在推动医学诊断发展方面的价值。

2025-04-02 17:27:10 304

原创 论文学习16:Learning Transferable Visual Models From Natural Language Supervision

本文研究了在自然语言处理(NLP)领域取得成功的、与具体任务无关的大规模网络预训练方法,是否可以迁移到另一个领域。研究表明,采用这一方法后,在计算机视觉领域会出现类似的行为,我们也探讨了这一研究方向的社会影响。为了优化训练目标,CLIP 模型在预训练过程中学习执行多种不同的任务。这种任务学习可以通过自然语言提示(prompting)加以利用,从而实现对许多现有数据集的零样本(zero-shot)迁移。在足够大的规模下,这种方法的性能可以与特定任务的监督学习模型相竞争,尽管仍有很大的改进空间。t=P1C7。

2025-04-02 00:24:02 756

原创 论文学习15:FINet: Frequency Injection Network for Lightweight Camouflaged Object Detection

文中提出了一种高效的频率注入网络(FINet),用于轻量级伪装目标检测(COD)。FIM 通过分别向 RGB 特征中注入细节级和目标级的频率线索,以增强轻量级主干特征。大量实验表明,FINet 在较低的模型复杂度和更快的推理速度下,仍能与大多数最新的 SOTA 方法竞争,表现出色。

2025-03-22 18:14:37 336

原创 论文学习14:EMGANet: Edge-Aware Multi-Scale Group-Mix Attention Network for Breast Cancer Ultrasound Imag

为了提高乳腺超声图像分割的准确性,文中提出了 EMGANet,该网络利用超声图像中的深层语义特征和边缘特征。我们引入了高效的 MGM 块,以提取深层多尺度语义特征。所提出的 EMGANet 具有强大的表征能力,能够精确分割癌症病灶。此外,EFE 块从 MGM 网络的多尺度输出中提取关键的边缘特征。最终,SKF 通过调整权重,有效融合浅层边缘特征与丰富的深层语义信息。EMGANet 在乳腺癌数据集上表现出卓越的分割性能,消融实验验证了所提出组件的有效性。此外,该方法在三个数据集上的表现优于多种最新的先进方法。

2025-03-22 16:57:27 398

原创 论文学习13:MSDUNet:A Model based on Feature Multi-Scale and Dual-input Dynamic Enhancement for Skin Le

本文介绍了一种名为MSDUNet的医学图像分割模型,该模型采用混合架构,集成了MSD Block和D2M模块。该模型利用深度学习算法从医学图像中学习和提取复杂特征,为医生提供更全面、更准确的信息。具体而言,所提出的MSD Block和D2M模块显著提升了皮肤癌分割任务的性能。在公开数据集上进行的实验表明,该模型取得了具有竞争力的结果,有力地支持了皮肤癌医学图像分割的进步。这些创新方法对提高诊断准确性、指导治疗决策以及推动该领域进一步研究产生了积极影响。尽管如此,本研究仍存在一些问题。

2025-03-19 18:25:59 391

原创 论文学习12:LSKANet: Long Strip Kernel Attention Network for Robotic Surgical Scene Segmentation

本文提出了一种手术场景分割网络LSKANet,该网络结合了DLKA以充分利用区域和条带状手术特征并减少局部特征相似性导致的错误识别,MAFF以在亲和矩阵的指导下融合多尺度特征图并抑制术中伪影的干扰,以及BGH的混合损失函数,以实现更准确的边界分割。在不同场景的三个数据集(EndoVis2018,CaDIS和论文中的MILS)上进行的大量实验验证了所提方法的有效性。文中的方法在这三个数据集上都取得了新的SOTA结果,并有相当大的改进。此外,LSKANet与不同的骨干网络兼容,可以显着提高它们的性能。

2025-03-19 00:01:46 1011

原创 论文学习10:SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation

在本文中,我们分析了以往成功的分割模型,并总结了它们所具备的优秀特性。基于这些发现,我们提出了一种定制卷积注意力模块(MSCA)和一个CNN 结构的分割网络(SegNeXt)。实验结果表明,SegNeXt 在性能上远超当前最先进的基于 Transformer 的方法。近年来,Transformer 结构的模型在各种分割任务排行榜上占据主导地位。然而,本研究表明,当 CNN 经过合理设计后,仍然能够比 Transformer 方法表现更好。

2025-03-17 23:38:33 698

原创 论文学习11:Boundary-Guided Camouflaged Object Detection

BGNet是一个由EAM(边缘注意模块)、EFM(边缘特征融合模块)和 CAM(通道注意模块)组成的统一整体,其中各个组件串行互相依赖,并相互补充。前两个模块(EAM 和 EFM)主要用于提取边界线索并引导特征学习,而 CAM 进一步增强关键特征表示。论文中的实验结果指出,CAM 和 EAM(边界线索相关模块)对性能提升的贡献比 EFM 更大。

2025-03-17 00:09:38 520

原创 论文学习9:Stepwise Feature Fusion: Local Guides Global

在本研究中,我们提出了一种新型深度学习模型 SSFormer,该模型具备强大的泛化能力和学习能力,这对于息肉分割任务至关重要。在额外的实验中,我们发现 SSFormer 在 ISIC-2018 和 2018 Data Science Bowl 基准测试中同样展现出卓越的学习能力,这表明 SSFormer 具有广阔的应用潜力,能够提升深度学习在其他医学图像分割任务中的表现。

2025-03-14 23:13:42 230

原创 论文学习8:Shallow Attention Network for Polyp Segmentation

由于数据集规模有限,息肉分割模型容易因过拟合而退化。本文尝试从两个方面缓解这一问题。针对错误的颜色因果关系,我们提出通过颜色交换来解耦图像的颜色与内容。针对小息肉难以分割的问题,我们设计了浅层注意力机制,以降低数据噪声。这些方法都有助于减少无关因素对模型的干扰。未来,我们将结合更多的先验知识,设计更具鲁棒性的特征,以消除独立因素的干扰。

2025-03-13 21:34:27 309

原创 论文学习7:Adaptive Context Selection for Polyp Segmentation

在本文中,我们认为高效地感知局部与全局上下文对于提高息肉区域定位与分割的性能至关重要。基于此,我们提出了一种基于自适应上下文选择的编码器-解码器框架,其中包含用于基于困难区域挖掘的局部上下文提取的 LCA 模块、用于每个解码器块中的全局特征表示和增强的 GCM 模块以及用于上下文信息聚合和选择的 ASM 组件。

2025-03-12 22:53:58 681

原创 论文学习6:EMCAD:Efficient Multi-scale Convolutional Attention Decoding for Medical Image Segmentation

在本文中,我们介绍了一种新型高效的多尺度卷积注意力解码器 EMCAD,专为医学图像分割中的多阶段特征聚合和细化而设计。EMCAD 采用多尺度深度卷积块,这对于捕获特征图中的不同尺度信息至关重要,而特征图是医学图像分割精度的关键因素。这种设计选择使用深度卷积而不是标准的 3×3 卷积块,使 EMCAD 非常高效。EMCAD 与较小的编码器兼容,使其非常适合即时诊断应用,同时保持高性能。

2025-03-12 21:59:31 936

原创 论文学习5:metaformer

在本研究中,我们将 Transformer 中的注意力机制抽象为一种 token mixer,并将整体 Transformer 归纳为一种通用架构,称为MetaFormer,其中 token mixer 的具体形式并未限定。我们并未专注于特定的 token mixer,而是指出MetaFormer 本身才是保证模型取得合理性能的关键。为了验证这一观点,我们特意将 MetaFormer 的 token mixer 设定为极其简单的池化操作,并发现由此得到的PoolFormer。

2025-03-11 23:09:07 881

原创 论文学习4: H2Former: An Efficient Hierarchical Hybrid Transformer for Medical Image Segmentation

在本研究中,为了充分利用 CNN、Transformer 的多尺度通道和 token 特征的优势,我们提出了一种用于医学图像分割的分层混合视觉 Transformer,称为 H2Former,它集成了 CNN 的归纳偏差、多尺度通道注意 token 特征和 Transformer,将它们的优点组合成一个统一的块。作为 CNN 的替代框架,H2Former 可以提高模型对多尺度长距离依赖关系和局部空间信息进行建模的能力。

2025-03-10 23:26:30 411

原创 论文学习3:MISSFormer: An Effective Medical Image Segmentation Transformer

在本文中,提出了 MISSFormer,一种位置无关的分层 U 形医学图像分割变换器,探索了全局依赖性和局部上下文捕获。所提出的增强混合块可以有效克服由前馈神经网络中卷积直接嵌入引起的特征判别限制问题,并做出判别性特征表示。基于这些核心设计,我们进一步研究了由所提出的分层变换器编码器生成的多尺度特征的集成,这对于精确分割至关重要。我们在两种不同形式的数据集上评估了所提出的方法,结果证明了 MISS Former 的有效性和鲁棒性。

2025-03-10 22:01:28 713

原创 模块学习2

本文提出了提出了一种高效的基于transformer的语义分割模型,EDAFormer。它利用了所提出的无嵌入注意力 模块。无嵌入注意力结构可以重新思考自注意力 全局背景建模方面的机制。

2025-03-06 20:46:03 134

原创 多尺度模块特征融合模块学习1

CM-UNet: Hybrid CNN-Mamba UNet for Remote Sensing Image Semantic Segmentation学习

2025-02-20 22:31:26 206

原创 Deeplabv3学习补充

Atrous Spatial Pyramid Pooling,可以理解为空洞空间卷积池化金字塔或者多孔空间金字塔池化。这其中,包括两个概念:SPP和Atrous。SPP(Spatial Pyramid Pooling): 是一种神经网络模块,旨在通过在多个尺度上提取特征来捕获多尺度上下文信息。SPP最初在图像分类任务中被提出,后来被广泛应用于目标检测、语义分割等计算机视觉任务。Atrous:空洞卷积,在卷积核元素之间加入一些空格(零)来扩大卷积核的过程。

2024-12-11 16:30:53 1451

原创 Deeplabv3学习:一种语义分割模型

DeepLabV3 是由 Google 研究团队研发并专门用于图像语义分割的一种深度学习模型。

2024-12-04 18:38:18 1889

原创 论文学习1:SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation

图像分割在视觉理解中起着重要作用。近年来,新兴的视觉基础模型在各种任务中持续取得了优异的表现。基于这一成功的经验,在本文,我们可以证明Segment Anything Model 2(SAM2)可以成为应用于U形分割模型的一个功能强大的编码器。我们提出了一个简单但有效的框架,称其为SAM2-UNet,用于实现多功能图像分割。具体来说,此框架采用基于SAM2预训练的Hiera骨干网络作为编码器,而解码器则使用经典的U形设计。此外,我们在编码器中插入适配器,以实现高效的参数微调。

2024-11-28 17:34:15 1923

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除