
语义分割
文章平均质量分 94
论文阅读中语义分割专栏
万里鹏程转瞬至
一名热爱深度学习算法实践的算法工程师,工作日长期活动在线,有项目研发技术问题均可私聊。
展开
-
论文阅读:Indoor Scene Layout Estimation from a Single Image
这是一篇比较早的论文,偶然发现。其亮点有二:1、将室内布局估计任务转换为语义分割任务,使用像素交叉熵+平滑边缘loss进行训练。2、构建布局退化模式,见2.3,实现了数据增强过程中的布局属性的变化. 该论文已经是6年前的,后续在该领域当有更优质的算法。实在不行,换个模型也有巨大的效果提升。该论文主要是带来启发:1、语义分割模型还能这样子使用,作用于室内布局估计;2、任务转换的启发,将室内布局任务转换为语义分割,那室内布局任务也可以转换为关键点检测等任务;3、特定任务场景下的数据增强模式存在label的退原创 2024-06-10 09:48:21 · 1573 阅读 · 1 评论 -
论文阅读:Robust High-Resolution Video Matting with Temporal Guidance
本文主要讲述了一个先进的抠图算法,其与语义分割存在细微差异,抠图算法还要多预测一个α参数,其实质上可以视为视频的实时语义分割。其所设计的网络结构支持时序数据训练,也支持单图训练。其训练流程比较繁琐,先基于短时序进行训练,然后再基于长时序进行训练。最终所设计的网络模型可以输出单个图片进行预测,也可以输入图片序列进行预测(`这主要源于其网络结构的设计特点,针对不同的数据走不同的forword形式`)。这种设计思路可以应用到视频分割中。原创 2023-11-14 22:23:56 · 1013 阅读 · 1 评论 -
论文阅读:Ensemble Knowledge Transfer for Semantic Segmentation
1、本文核心点为知识集成(将多个不同类别标签的源域数据知识转移到标签类别存在差异的目标域中),但并未提出有效的知识集成方案,所展示的就是多模型softmax平均集成方案较优,多模型加权平均方案最优。其主要创意就是实现了从多个数据集中抽取目标知识,基于动机此我们可以从多个开源的预训练模型中直接抽取目标知识。在这里插入图片描述2、本文探讨了知识迁移,将室内和室外场景的数据知识迁移到航空视角,并指出不同源域中数据的冲突(同一类别在不同源中成像差异;不同类别在不同源中有结构相似性)、不同源域中的数据分布差异(原创 2023-11-07 21:17:38 · 691 阅读 · 0 评论 -
论文解读:Improving Nighttime Driving-Scene Segmentation via Dual Image-adaptive Learnable Filters
1、将早期研究的IA-YOLO的CNN-PP+DIP模块包装成IAPM模块,移除了以往了一些滤波器,将使用场景从恶劣天气转移到夜间环境;2、使用了可训练的引导滤波(LGF)来优化语义分割结果,整个方案在监督学习和非监督场景下都取得良好效果;2、其所使用的IAPM模块优化了图像边缘的质量,故而提升了LGF模块的效果;原创 2023-08-28 03:00:00 · 1517 阅读 · 0 评论 -
论文解读:Personalize Segment Anything Model with One Shot
本质为SAM模型的二开利用,基于SAM强大的zero-shot适应能力,提出了one-shot应用。基于用于指定的image和mask生成特征,然后基于特征自动生成输入提示对后续的test image进行分割。期间包含了对one-shot SAM使用的迁移。SAM的使用不足1、SAM需要有精准定位(对于某些目标是耗时耗力)才能分割出指定目标。2、使用SAM的text提示查找目标存在查找不精准的情况。技术点Target-guided Attention[基于与one-shot目标特征的余弦相似度原创 2023-07-21 20:20:03 · 2999 阅读 · 1 评论 -
论文解读:MobileSAM | FASTER SEGMENT ANYTHING: TOWARDS LIGHTWEIGHT SAM FOR MOBILE APPLICATIONS
发表时间:2023.06.27论文地址:https://arxiv.org/pdf/2306.14289.pdf项目代码:https://github.com/ChaoningZhang/MobileSAMSegment anything model(SAM)是一个快速引导的视觉基础模型,用于从其背景中找出感兴趣的对象。自从Meta研究团队发布了SA项目以来,SAM因其令人印象深刻的zero-shot性能和兼容的其他模型而吸引了广泛的关注,如细粒度控制的图像编辑。原创 2023-06-29 19:37:23 · 2457 阅读 · 4 评论 -
论文解读:FastSAM | Fast Segment Anything | 基于yolov8-seg实现 比SAM快50倍
最近提出的任意分割模型(SAM)在许多计算机视觉任务中产生了重大影响。它正在成为许多高级任务的基础步骤,如图像分割、图生文和图像编辑。然而,它巨大的计算成本使它无法在行业场景中得到更广泛的应用。计算主要来自于高分辨率输入下的Transformer体系结构。原创 2023-06-29 12:14:03 · 7990 阅读 · 6 评论 -
论文解读:Segment Anything
Segment Anything 将研究目光聚焦于基础模型,将应用领域无限推广,意图实现zero-shot或few-shot泛化(参考NL计算)。SAM是一个项目体系,而非某个网络模型。其核心是对数据的利用,对模型输入输出格式的调整。其网络模型均依赖VIT模型,其结构体系为提示分割模型(与普通语义分割模型多了提示这一层)。SAM参考NLP,认为其具备强大的下游泛化能力是因为提示输入,其认为分割任务的提示输入为点、推荐框、mask和文本(对于文本输入的理解使用CLIP编码器),通过给定提示输入来明确分割对象。原创 2023-06-10 07:36:12 · 4136 阅读 · 0 评论 -
论文解读:PP-LiteSeg: A Superior Real-Time Semantic Segmentation Model
1、本文的核心其实就是提出了一种基于attention的多尺度间特征的融合方式(UAFM,与Attention to Scale论文和MULTI-SCALE ATTENTION 论文核心思想很像),但其attention map是针对整个尺度,而不是单个像素位。其所使用的backbone为paddle团队提出的STDC22、基于所提出的多尺度特征间融合方式UAFM,并指出解码器中存在计算冗余(高分辨率下chanel大,增加了解码压力)设计了一种轻量化的解码器头FLD。原创 2023-03-25 20:15:43 · 2365 阅读 · 3 评论 -
论文解读:Foreground-Aware Relation Network for Geospatial Object Segmentation in High Spatial Resolution
1、整体看来,FarSeg将目标检测中的类似PAFPN的结构迁移到了语义分割中,并对网络结构进行了拆解,赋予了PAFPN中特征聚合操作不同的含义(Foreground-Scene Relation提取)2、FarSeg将语义分割的研究对象转移到HSR遥感影像阵地,提出前景背景不平衡的现状,对Focal loss进行了变体实现(Foreground-Aware Optimization)3、在最终cout前对特征取平均值的操作与一般网络不同,但文章未给出说法;原创 2023-03-22 20:21:21 · 463 阅读 · 0 评论 -
论文阅读:HIERARCHICAL MULTI-SCALE ATTENTION FOR SEMANTIC SEGMENTATION
论文地址:https://arxiv.org/pdf/2005.10821.pdf发表时间:2020多尺度推理是提高语义分割结果的常用方法。多个图像尺度通过网络,然后将结果与平均或最大池化相结合。在这项工作中,我们提出了一种基于注意力的方法来结合多尺度预测。我们表明,在特定尺度上的预测更能解决特定的故障模式,并且网络学会了在这种情况下支持这些尺度,以产生更好的预测。我们的注意力机制是分层的,这使得它的训练效率比其他最近的方法高4倍。...翻译 2022-08-18 00:15:00 · 919 阅读 · 1 评论 -
论文解读 CascadePSP: Toward Class-Agnostic and Very High-Resolution Segmentation via Global and Local Re
1、可用于提升任意语义分割模型的精度,本质上是一种用深度学习实现的后处理方法2、在训练时需要输入其他模型的初步语义分割结果(实际上是对GT做扰动,使模型在精度提升上无偏好)3、在2.3节中的loss消融实验可以发现,经过第一次提炼(使用ce loss输出步幅为8)时,在deeplabv3+上iou已经提升了1.6[最终提升1.84、在2.3节中的结构消融实验可以发现,经过第三次提炼(使用输出步幅为1的输出)时,在deeplabv3+上iou已经提升了1.3[最终提升1.7。原创 2023-03-13 21:51:40 · 665 阅读 · 3 评论 -
论文解读:SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation
SegNeXt是一个简单的用于语义分割的卷积网络架构,通过对传统卷积结构的改进,在一定的参数规模下超越了transformer模型的性能,同等参数规模下在 ADE20K, Cityscapes,COCO-Stuff, Pascal VOC, Pascal Context, 和 iSAID数据集上的miou比transformer模型高2个点以上。其优越之处在对编码器(backbone)的的改进,将transformer中模型的一些特殊结构引入了传统卷积中,并提出了MSCAAttention结构,在语义分割中原创 2023-03-08 23:35:27 · 4921 阅读 · 0 评论 -
论文阅读:Attention to Scale: Scale-aware Semantic Image Segmentation
论文地址:https://arxiv.org/pdf/1511.03339.pdf发表时间:2016在全卷积神经网络(FCNs)中结合多尺度特征一直是实现语义图像分割最新性能的关键因素。提取多尺度特征的一种常见方法是将多个调整后的输入图像提供给一个共享的深度网络,然后将得到的特征合并起来进行像素级分类。在这项工作中,我们提出了一种注意机制,学习在每个像素位置的多尺度特征。我们采用了一个最先进的语义图像分割模型,我们与多尺度输入图像和注意力模型共同训练它。翻译 2022-08-20 00:30:00 · 963 阅读 · 0 评论 -
论文阅读:SegFix: Model-Agnostic Boundary Refinement for Segmentation
论文地址:https://arxiv.org/pdf/2007.04269.pdf发布年份:2020。我们提出了一种模型无关的后处理方案,以提高由任何现有的分割模型生成的分割结果的边界质量。基于经验观察的标签预测更可靠,我们建议用内部像素的预测来取代原本不可靠的边界像素预测。我们的方法只通过两个步骤来处理输入的图像:(i)定位边界像素,(ii)为每个边界像素识别相应的内部像素。我们通过学习一个从边界像素到一个内部像素的方向来建立对应关系。我们的方法不需要分割模型的先验信息,并达到了几乎实时的速度。.....翻译 2022-08-17 11:11:17 · 935 阅读 · 5 评论 -
论文阅读:Segmentation Transformer: Object-Contextual Representations for Semantic Segmentation
论文地址:https://arxiv.org/pdf/1909.11065.pdf发布年份:2021本文研究了语义分割中的上下文聚合问题。由于一个像素的标签是该像素所属的对象的类别,我们提出了一种简单而有效的方法,即对象-上下文表示( object-contextual representations,OCR),通过利用相应的对象类的表示来描述一个像素。首先,我们在地面真实分割的监督下学习目标区域。其次,我们通过聚合位于对象区域中的像素的表示来计算对象区域表示。...翻译 2022-08-16 15:16:39 · 1562 阅读 · 1 评论 -
论文阅读:SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers
我们提出了SegFormer,一个简单,高效但强大的语义分割框架,它将Transformers与轻量级多层感知器(MLP)解码器统一起来。SegFormer有两个吸引人的特点:1)SegFormer包括一个新的层次结构Transformers编码器,输出多尺度特征。它不需要位置编码,从而避免了位置码的插值,当测试分辨率与训练不同时,会导致性能下降。2)SegFormer避免了复杂的解码器。所提出的MLP解码器聚合了来自不同层的信息,从而结合了局部注意和全局注意,呈现出强大的表示。我们证明,这种简单和轻量级的原创 2022-07-29 20:52:26 · 4697 阅读 · 1 评论 -
论文阅读:UNET 3+: A FULL-SCALE CONNECTED UNET FOR MEDICAL IMAGE SEGMENTATION
最近,人们对基于深度学习的语义分割越来越感兴趣。UNet是一种具有编码器-解码器架构的深度学习网络,广泛用于医学图像分割。结合多尺度特征是准确分割的重要因素之一。UNet++是通过设计具有嵌套和密集跳过连接的架构而开发为修改后的Unet。但是,它没有从全尺度探索足够的信息,还有很大的改进空间。在本文中,我们提出了一种新颖的UNet3+,它利用了全面的跳过连接和深度监督。全尺寸跳跃连接将低级细节与来自不同尺度特征图的高级语义结合起来;...原创 2022-07-25 01:00:00 · 3882 阅读 · 1 评论 -
论文阅读:Rethinking Atrous Convolution for Semantic Image Segmentation
论文地址https发表时间2017注2018年提出了deeplab3+,论文详细解读可以参考在这项工作中,我们重新讨论了空洞卷积,这是一个强大的工具,可以显式地调整滤波器的视场,以及控制由深度卷积神经网络计算的特征响应的分辨率。为了解决多尺度分割对象的问题,我们设计了采用级联或并行梯度卷积的模块,采用多尺度膨胀率来捕获多尺度上下文。此外,我们建议改进我们之前提出的空间空间金字塔池模块,该模块在多个尺度上探测卷积特征,图像级特征编码全局上下文,并进一步提高性能。.........原创 2022-07-19 05:30:00 · 1774 阅读 · 1 评论 -
论文阅读:LinkNet: Exploiting Encoder Representations forEfficient Semantic Segmentation
个人感觉LinkNet的结构确实可以减少一定的运算量,但是这平平无奇的网络结构能取得较为惊艳的效果,博主认为还是作者的调参能力太强了。因为博主认为LinkNet能取得的效果,Unet一样也可以(两者的网络结构相似度太高了)。作者也在其论文中展示了,无bypass结构时的iou,使用bypass结构后增益极其明显。......原创 2022-07-18 15:43:07 · 691 阅读 · 0 评论 -
论文阅读:U-Net++: Redesigning Skip Connections to Exploit Multiscale Features in Image Segmentation
最先进的医学图像分割模型是U-Net和全卷积网络(FCN)的变体。尽管这些模型取得了成功,但它们有两个局限性(1)的最优深度是先验未知的,需要广泛的架构搜索或不同深度模型集成;(2)跳跃连接施加了不必要的限制性融合方案,只能在编码器和解码器子网络的相同尺度特征图上聚合。为了克服这两个限制,我们提出了一种新的语义和实例分割神经结构U-Net++,通过(1)与不同深度的u型网络的有效集成,部分共享编码器,同时使用深度监督协同学习;......原创 2022-07-16 23:45:00 · 2430 阅读 · 1 评论 -
论文阅读:Pyramid Scene Parsing Network
场景解析对于不受限制的开放词汇表和多样化的场景来说很具有挑战性。在本文中,我们通过金字塔池模块和提出的金字塔场景解析网络(PSPNet),利用基于不同区域的上下文聚合的全局上下文信息的能力。我们的全局先验表示可以有效地在场景解析任务上产生良好质量的结果,而PSPNet为像素级预测提供了一个优越的框架。该方法在各种数据集上取得了最先进的性能。它在2016年ImageNet场景解析挑战、pascalVOC2012基准和城市景观基准中获得第一名。......原创 2022-07-15 18:31:14 · 1150 阅读 · 2 评论 -
论文阅读:U-Net: Convolutional Networks for Biomedical Image Segmentation
在过去的两年里,深度卷积网络在许多视觉识别任务中都表现出色,例如[7,3]。虽然卷积网络已经存在了很久[8],但由于可用训练集的大小和所考虑的网络的大小,它们的成功受到了限制。Krizhevsky等人[7]的突破是由于在具有100万张训练图像的ImageNet数据集上对一个具有8层和数百万个参数的大型网络进行监督训练。从那时起,更大、更深层次的网络可以被训练[12]。卷积网络的典型用途是在分类任务上,其中对图像的输出是一个单一的类标签。u-net架构在非常不同的生物医学分割应用上取得了非常好的性能。...原创 2022-07-15 18:19:40 · 1235 阅读 · 0 评论