zl29-优快云博客

原创论文学习37：Single-Image-Based Deep Learning forSegmentation of Early Esophageal Cancer Lesions

本文提出的用于内窥镜图像病变分割的“一图一网络”解决方案是原创的。由此产生的YOHO框架具有两大优势：(1) 无需收集多个患者的图像数据集，从而全面保护患者的隐私；(2) 所谓的“过拟合”问题，或许是与泛化相关的最关键问题，现在得到了优雅的解决。从技术角度来看，本文的工作也做出了两大贡献。首先，文中提出的基于几何的数据增强技术，用于生成单个输入图像的训练集，这似乎是该领域的首次尝试。其次，研究过程中创建的 EEC 数据集很可能在未来研究中发挥重要作用。

2025-09-17 18:28:55 926

原创论文学习36：Continuous Feature Representation for CamouflagedObject Detection

现有方法通常以离散的方式表示多尺度特征，导致一些对 COD 至关重要的细微判别性线索丢失。为了解决这个问题，研究人员提出了一种新颖的连续特征表示网络 (CFRN)，将特征转换为连续函数，以实现准确的 COD。具体而言，本文首先采用 Swin Transformer 来提取包含全局上下文信息的多层级特征。然后，设计一个 OFM 嵌入到每一层特征中，以增强细微的判别线索，从而突出伪装物体的整体，并抑制其他干扰物体。最后，提出了一种新颖的 FIFD 来精确解码最终预测。

2025-09-15 14:30:36 1087

原创论文35：PeftCD: Leveraging Vision Foundation Models withParameter-Efficient Fine-Tuning for Remote

本文提出了一种名为PeftCD的新型变化检测框架，该框架通过将视觉基础模型（例如SAM2、DINOv3）与参数高效微调（PEFT）策略相结合，有效地解决了遥感图像中的伪变化干扰和泛化难题。通过冻结主干中的大部分参数，同时仅训练少量附加模块，PeftCD成功地将VFM的强大先验知识迁移到变化检测任务中。在包括SYSU-CD和WHUCD在内的七个公共数据集上进行的实验表明，PeftCD在多个指标上均达到了最佳性能，尤其是在描绘变化边界和抑制伪变化方面表现出色。

2025-09-12 23:53:12 1008

原创论文学习34：Frontiers in Intelligent Colonoscopy

本文研究智能结肠镜技术的前沿及其在多模态领域的广泛应用。研究结构遵循两条主要思路。首先，研究人员调查了四项结肠镜场景感知任务的概况，并梳理出其中的关键挑战和尚未深入研究的领域。其次，调查显示，结肠镜检查中的多模态研究尚未得到充分探索。为此，本文向社区贡献了三项创新：一个大规模多模态指令调优数据集 ColonINST、一个结肠镜检查专用的多模态语言模型 ColonGPT 以及一个多模态基准测试。

2025-09-11 15:16:29 483

原创论文学习33：DeepSeek-V2: A Strong, Economical, and EfficientMixture-of-Experts Language Model

本文介绍了 DeepSeek-V2，这是一个支持 128K 上下文长度的大型多方位语言模型 (MoE)。除了强大的性能外，得益于其包含 MLA 和 DeepSeekMoE 的创新架构，它还具有经济的训练和高效的推理能力。实践中，与 DeepSeek 的 67B 模型相比，DeepSeek-V2 取得了显著提升的性能，同时节省了 42.5% 的训练成本，减少了 93.3% 的键值缓存，并将最大生成吞吐量提升至 5.76 倍。

2025-09-10 20:26:50 901

原创论文学习32：Multi-Scale Cross-Dimensional Attention Networkfor Gland Segmentation

本文提出了一种多尺度跨维度注意力网络（MCANet），用于腺体分割。首先，研究人员设计了并行多尺度注意力网络，以保留像素级空间位置信息，从而更精确地分割不规则腺体形状和边界。其次，设计了一个跨维度注意力网络，用于模拟腺体空间维度之间的相互作用。在六个数据集上进行的大量实验验证了 MCANet 的有效性及其对噪声和分布外变异的鲁棒性，配对 t 检验证实了其在统计上显著的改进。然而，MCANet 在有限数据上可能出现过拟合，或对数据集特定的模式较为敏感。在未来的工作中，我们将探索提升其泛化能力的方法。

2025-09-10 13:47:47 468

原创论文学习31：Fourier Boundary Features Network With WiderCatchers for Glass Segmentation

本文通过增强玻璃边界并缓解玻璃的反射和透光特性导致的深层结构语义信息的过度捕获，实现了高精度玻璃分割。文中水平连接设计的卷积单元 (CU)，以便在强边界约束下适当地捕获大面积语义特征，同时嵌入卷积层 (CTA) 以保持特征区域的一致性。采用 FCC 可以灵活调整并有效地整合各种特征。大量实验表明，研究人员提出的 FBWC 在三个公共玻璃分割数据集上均达到了最佳性能。然而，该方法存在局限性。例如，该方法难以对被大片玻璃覆盖的建筑物进行精细分割，而由于装饰性彩色玻璃色彩丰富、图案复杂，其分割效果不佳。

2025-09-10 11:32:02 316

原创论文学习30：LViT: Language Meets Vision Transformerin Medical Image Segmentation

本文提出了一种新的视觉语言医学图像分割模型LViT，该模型利用医学文本标注来弥补图像数据的质量缺陷，并在半监督学习中指导生成更高质量的伪标签。为了评估LViT的性能，研究人员构建了多模态医学分割数据集（图像+文本），实验结果表明，这个模型在全监督和半监督环境下均具有卓越的分割性能。此外，我们还提供了一个关于早期食管癌诊疗的示例应用，以展示文本标注如何在实际场景中发挥作用。目前，这个模型是一个二维分割模型。在未来的工作中，研究人员将把模型扩展到三维，并在更多医学数据上进行实验，以进一步验证其通用性。

2025-09-02 22:37:30 389

原创论文29：Mobile U-ViT: Revisiting large kernel and U-shaped ViT forefficient medical image segmentation

在本研究中，提出了 Mobile U-ViT，这是一种新型的混合轻量级网络，旨在应对移动医学图像分析的挑战。通过结合 ConvUtr（一种轻量级的、受 Transformer 启发的 CNN 块嵌入）和 LKLGL 模块，Mobile U-ViT 有效地弥合了医学图像分割中计算效率和性能之间的差距。此外，带有下采样跳跃连接的级联解码器确保了局部和全局特征的有效整合，使该模型成为资源受限环境的理想选择。

2025-08-28 22:21:10 429

原创论文学习28：LGFFM: A Localized and Globalized FrequencyFusion Model for Ultrasound Image Segmentation

在本文中，研究人员提出了一种新颖的局部和全局频率融合模型 (LGFFM)，用于精确分割医学超声图像。LGFFM 的主要优势之一是它能够同时学习局部特征和全局依赖关系。此外，LGFFM 还结合频域特征来补充边缘信息，从而增强模型的泛化能力。与现有仅侧重于单域特征融合的超声图像分割方法不同，本文提出的多域融合方法能够对多个域的特征进行对齐和集成，从而进一步提升模型的性能。基于这些核心创新，文中在八个超声数据集上进行了交叉验证和跨数据集泛化评估。

2025-08-27 22:18:48 347

原创 27: SCOUT: Semi-supervised Camouflaged Object Detection by Utilizing Text andAdaptive Data Selection

本文针对现有半监督 COD 方法的不足之处，即无法自适应地选择和利用高质量数据，导致性能不佳。研究人员提出了一个创新的半监督 COD 模型 SCOUT。具体而言，本文提出了 ADAS 模块，通过对抗性增强和采样策略选择有价值的数据，从而避免无意义的数据标注。此外，研究人员提出了 TFM 模型，通过结合伪装相关知识和文本-视觉交互，充分利用指涉文本。此外，研究人员还提出了一个 RefTextCOD 数据集，其中包含大量图像级指涉文本标注。大量实验证明了所提框架和模块的有效性。

2025-08-26 22:41:41 294

原创论文学习26： Spatial-Frequency Collaborative Learning for Camouflaged Object Detection

本文提出了一种用于伪装目标检测 (COD) 的空频协同学习网络，该网络充分利用了空间和频率信息。采用 SMT-T 作为骨干网络，可以有效提取多尺度特征。然后，设计了一个域变换融合 (DTF) 模块，从频域角度分离高频和低频信息，这有助于解决伪装目标与其背景对比度低的问题。研究人员提出了一个 CIU 模块，利用空频域的互补融合，对伪装目标进行精细校正。此外，研究人员还引入了一个边缘放大模块，以获取更准确的伪装目标边缘信息。

2025-08-25 21:02:03 382

原创论文学习25：A Spatial-Temporal Progressive Fusion Network forBreast Lesion Segmentation in Ultrasound Vi

本文提出了一种时空渐进融合网络 (STPFNet)，用于解决超声乳腺病变边界模糊和形状不规则的问题。首先，研究人员通过时间融合模块和空间融合模块充分利用时空信息。然后，他们进行了多粒度融合，融合时间、空间特征以及编码器的特征，以获取更详细的信息。研究人员在研究中还使用前一帧作为先验知识来定位病变区域。最后，构建了一个新的 UVBLS200 数据集用于乳腺病变分割。在 UVBLS200 数据集上将研究人员提出的方法与其他几种最先进的技术进行了比较评估。

2025-08-19 22:30:36 320

原创论文学习24：Boundary-Sensitive Segmentation of SmallLiver Lesions

肝脏病变分割对于肝脏疾病的诊断和治疗至关重要，尤其是对于早期诊断至关重要的小病变。然而，由于从受限区域和模糊边界获取的特征有限，从肝脏图像中识别小病变具有挑战性。因此，本文提出了一个结合路径签名和伪装物体检测的模型来解决这个问题。路径签名侧重于边界区域以创建特定于边缘的特征，并进一步利用这些特征来改进纹理区域分割。为了防止模型直接预测的路径碎片化，研究人员利用预测边界缩小了感兴趣区域，从而获得连续且准确的单像素宽度边缘，这对于路径签名的计算至关重要。

2025-08-16 23:12:08 841

原创论文学习23：Multi-Scale and Detail-Enhanced Segment Anything Model forSalient Object Detection

本文针对 SOD 任务提出了一个新颖的特征学习框架 MDSAM。该框架保留了 SAM 的预训练权重，同时融合了多尺度和细粒度信息。具体而言，通过在 SAM 的编码器中引入 LMSA，研究人员将 SAM 应用于 SOD，使模型能够学习多尺度信息。此外，研究人员还提出了 MLFM，以有效地融合 SAM 编码器不同层的输出特征。为了提升SOD的性能，提出了DEM来解决SAM中缺乏细粒度细节的问题。实验结果验证了该方法的有效性和强大的泛化能力。

2025-08-13 16:27:25 453

原创论文学习22：UNETR: Transformers for 3D Medical Image Segmentation

本文提出了一种基于Transformer的新型架构，称为UNETR，用于对体积医学图像进行语义分割，并将该任务重新表述为一维序列到序列的预测问题。研究人员提出使用Transformer编码器来增强模型学习长距离依赖关系的能力，并有效地捕捉多尺度的全局上下文表征。研究人员验证了UNETR在CT和MRI模式下不同体积分割任务中的有效性。UNETR在BTCV排行榜的标准赛和自由赛中均取得了多器官分割领域的新最高水平，并在MSD数据集上优于脑肿瘤和脾脏分割的竞争方法。

2025-08-11 20:05:43 471

原创论文学习21：Pyramid Scene Parsing Network

本文提出了一个有效的金字塔场景解析网络，用于复杂场景理解。全局金字塔池化功能提供了额外的上下文信息。研究人员还为基于 ResNet 的 FCN 网络提供了一种深度监督优化策略，并希望公开的实现细节能够帮助采用这些有用的策略进行场景解析和语义分割，并推进相关技术的发展。

2025-08-09 15:02:54 427

原创论文学习20：SegFormer: Simple and Efficient Design for SemanticSegmentation with Transformers

本文提出了一种简单、干净且功能强大的语义分割方法 SegFormer，它包含一个无位置编码的分层 Transformer 编码器和一个轻量级的 AllMLP 解码器。它避免了以往方法中常见的复杂设计，从而实现了高效率和高性能。SegFormer 不仅在常见数据集上取得了新的 SOTA 成果，还展现出强大的零样本鲁棒性。研究人员希望这个方法能够为语义分割奠定坚实的基础，并激发进一步的研究。

2025-08-08 23:03:51 419

原创论文学习19：Multi-view Aggregation Network for Dichotomous Image Segmentation

本文将高精度 DIS 建模为多视图物体感知问题，并提出了一个简洁、精简的多视图聚合网络，旨在在模型设计、精度和推理速度之间取得更好的平衡。为了解决多视图的目标对齐问题，本文提出了多视图互补定位模块来联合计算目标的共同注意区域。此外，本文提出的多视图互补细化模块嵌入到每个解码器块中，以充分整合互补的局部信息并弥补单视图块的语义缺陷，最终仅用一个卷积层即可完成视图重排。大量实验表明，提出的模型在 DIS 数据集上表现良好。

2025-08-06 23:37:22 398

原创论文学习18：Bilateral Reference for High-Resolution Dichotomous Image Segmentation

本文提出了一个配备双边参考的 BiRefNet 框架，该框架可在同一框架内执行二分图像分割、高分辨率显著目标检测和隐藏目标检测。通过全面的实验，研究者发现未缩放的源图像和对信息丰富区域的关注对于生成 HR 图像中精细且细节丰富的区域至关重要。为此，研究者提出了双边参考来填充精细部分中缺失的信息（内向参考），并引导模型更加关注细节更丰富的区域（外向参考）。这显著提升了模型捕捉微小像素特征的能力。为了降低 HR 数据训练的高昂训练成本，本文还提供了各种实用技巧，以实现更高质量的预测和更快的收敛速度。

2025-08-05 23:58:18 373

原创论文学习17：CLIP-TNseg: A Multi-Modal Hybrid Framework for Thyroid Nodule Segmentation in Ultrasound Imag

本论文提出了一种名为 CLIP-TNseg 的新方法，用于甲状腺结节分割，该方法将多模态大模型与神经网络架构相结合。通过融合文本和视觉监督，CLIP-TNseg 提高了分割的准确性、鲁棒性和泛化能力。该方法在临床应用中展现出巨大潜力，并可扩展至其他医学图像分割任务，突显了多模态学习在推动医学诊断发展方面的价值。

2025-04-02 17:27:10 434

原创论文学习16：Learning Transferable Visual Models From Natural Language Supervision

本文研究了在自然语言处理（NLP）领域取得成功的、与具体任务无关的大规模网络预训练方法，是否可以迁移到另一个领域。研究表明，采用这一方法后，在计算机视觉领域会出现类似的行为，我们也探讨了这一研究方向的社会影响。为了优化训练目标，CLIP 模型在预训练过程中学习执行多种不同的任务。这种任务学习可以通过自然语言提示（prompting）加以利用，从而实现对许多现有数据集的零样本（zero-shot）迁移。在足够大的规模下，这种方法的性能可以与特定任务的监督学习模型相竞争，尽管仍有很大的改进空间。t=P1C7。

2025-04-02 00:24:02 841

原创论文学习15：FINet: Frequency Injection Network for Lightweight Camouflaged Object Detection

文中提出了一种高效的频率注入网络（FINet），用于轻量级伪装目标检测（COD）。FIM 通过分别向 RGB 特征中注入细节级和目标级的频率线索，以增强轻量级主干特征。大量实验表明，FINet 在较低的模型复杂度和更快的推理速度下，仍能与大多数最新的 SOTA 方法竞争，表现出色。

2025-03-22 18:14:37 496

原创论文学习14：EMGANet: Edge-Aware Multi-Scale Group-Mix Attention Network for Breast Cancer Ultrasound Imag

为了提高乳腺超声图像分割的准确性，文中提出了 EMGANet，该网络利用超声图像中的深层语义特征和边缘特征。我们引入了高效的 MGM 块，以提取深层多尺度语义特征。所提出的 EMGANet 具有强大的表征能力，能够精确分割癌症病灶。此外，EFE 块从 MGM 网络的多尺度输出中提取关键的边缘特征。最终，SKF 通过调整权重，有效融合浅层边缘特征与丰富的深层语义信息。EMGANet 在乳腺癌数据集上表现出卓越的分割性能，消融实验验证了所提出组件的有效性。此外，该方法在三个数据集上的表现优于多种最新的先进方法。

2025-03-22 16:57:27 580

原创论文学习13:MSDUNet:A Model based on Feature Multi-Scale and Dual-input Dynamic Enhancement for Skin Le

本文介绍了一种名为MSDUNet的医学图像分割模型，该模型采用混合架构，集成了MSD Block和D2M模块。该模型利用深度学习算法从医学图像中学习和提取复杂特征，为医生提供更全面、更准确的信息。具体而言，所提出的MSD Block和D2M模块显著提升了皮肤癌分割任务的性能。在公开数据集上进行的实验表明，该模型取得了具有竞争力的结果，有力地支持了皮肤癌医学图像分割的进步。这些创新方法对提高诊断准确性、指导治疗决策以及推动该领域进一步研究产生了积极影响。尽管如此，本研究仍存在一些问题。

2025-03-19 18:25:59 514

原创论文学习12：LSKANet: Long Strip Kernel Attention Network for Robotic Surgical Scene Segmentation

本文提出了一种手术场景分割网络LSKANet，该网络结合了DLKA以充分利用区域和条带状手术特征并减少局部特征相似性导致的错误识别，MAFF以在亲和矩阵的指导下融合多尺度特征图并抑制术中伪影的干扰，以及BGH的混合损失函数，以实现更准确的边界分割。在不同场景的三个数据集（EndoVis2018，CaDIS和论文中的MILS）上进行的大量实验验证了所提方法的有效性。文中的方法在这三个数据集上都取得了新的SOTA结果，并有相当大的改进。此外，LSKANet与不同的骨干网络兼容，可以显着提高它们的性能。

2025-03-19 00:01:46 1169 1

空空如也

空空如也