
学术论文详读
文章平均质量分 94
sunshineine
在读女博士一枚,主攻视觉大模型、图像生成、图像分割等领域
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
论文详读:InstructEdit:使用用户说明改进基于扩散的图像编辑的自动掩码(InstructEdit: Improving Automatic Masks forDiffusion-base)
本文提出InstructEdit框架,通过语言指令实现细粒度图像编辑。该框架整合三个核心组件:1)语言处理器(采用ChatGPT/BLIP2解析指令并生成分割提示与编辑字幕);2)分割器(基于GroundedSegmentAnything生成高质量掩码);3)图像编辑器(结合StableDiffusion与DiffEdit技术进行掩码引导生成)。实验表明,该框架在复杂场景下的细粒度编辑效果优于DiffEdit等现有方法,并能处理多种形式的用户指令。原创 2025-06-06 00:38:46 · 683 阅读 · 0 评论 -
论文详读:基于跨视图查询一致性的铁路轨道异物检测方法
铁路轨道异物检测在保障铁路正常运营方面具有重要意义。然而,目前该领域主要面临两大挑战:数据稀缺和标注成本高。由于轨道上的某些异常较为罕见,现有公开数据集难以覆盖多样化的异常情况;而人工标注数据不仅耗时费力,且难以满足大规模应用需求。为了应对这些挑战,本文提出了一种新颖的铁路轨道异物图像生成与检测框架,结合异物图像生成和半监督学习策略以提升检测性能。具体而言,针对数据稀缺问题,本文提出了一种基于扩散模型的多区域引导异物生成方法。原创 2025-05-22 15:22:35 · 1097 阅读 · 0 评论 -
论文详读:基于扩散模型的图像编辑综述(Diffusion Model-Based Image Editing: A Survey)(涉及图像生成、图像合成、图像恢复、图像编辑等多个领域)
去噪扩散模型已经成为各种图像生成和编辑任务的强大工具,以无条件或输入条件的方式促进视觉内容的合成。它们背后的核心思想是学习逆转逐渐向图像添加噪声的过程,使它们能够从复杂的分布中生成高质量的样本。在这项调查中,我们提供了一个详尽的概述现有的方法,使用扩散模型进行图像编辑,涵盖理论和实践方面的领域。我们从多个角度对这些作品进行了深入的分析和分类,包括学习策略用户输入条件以及可以完成的特定编辑任务。此外,我们特别关注图像修复和外绘,并探讨早期的传统上下文驱动和当前的多模态条件方法。原创 2025-05-18 17:11:33 · 1041 阅读 · 0 评论 -
论文详读:一种用于变电站缺陷图像生成的新型对抗性深度学习方法(A Novel Adversarial Deep Learning Method for SubstationDefect Image)
2024-7-12变电站设备缺陷的存在是影响电力安全输送的主要因素。随着智能巡检机器人的发展,多利用主流的目标检测模型对变电设备表面缺陷进行诊断,但缺陷图像数据的缺乏是影响基于监督深度学习的缺陷检测模型准确性的主要因素之一。针对变电站设备锈蚀、表面漏油等复杂背景下缺陷图像训练数据不足,导致检测模型性能不佳的问题,本文提出一种基于对抗式深度学习的变电站缺陷图像生成模型--异常缺陷检测生成对抗网络(ADD-GAN)。与现有的生成式对抗网络不同,该模型在。原创 2025-04-17 16:42:56 · 825 阅读 · 0 评论 -
论文详读:SAM引导的面向异常检测的双流轻量化模型(A SAM-guided Two-stream Lightweight Model for AnomalyDetection)
2025-02-28在工业异常检测中,模型高效性和移动友好性成为实际应用中的首要问题。本文针对这两个关键因素,提出了基于Segment Anything(SAM)的无监督异常检测双流轻量级模型 STLM,采用的两种轻量级图像编码器由SAM的知识指导,充分利用了SAM的鲁棒泛化能力。一个流被训练为在正常和异常区域中产生区分性和一般性的特征表示,而另一个流重建相同的无异常图像,从而有效地增强了两个流表示在面对异常区域时的区分性。此外,我们。原创 2025-03-28 16:18:02 · 1085 阅读 · 0 评论