SaliencyReview：显著性检测综述阅读笔记

最新推荐文章于 2024-06-13 20:21:47 发布

原创

最新推荐文章于 2024-06-13 20:21:47 发布 · 2.3k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #深度学习

本文全面回顾了基于深度学习的显著性检测方法，重点介绍了网络结构、监督信号、学习范式及目标检测等方面的发展。文章总结了常用数据集与评价指标，并探讨了SOD的挑战与未来方向。

typora-root-url: images

SaliencyReviews

显著性检测论文综述阅读笔记

Author: wbzhang 2020/3/19

E-mail: wbzhang233@163.com

1.Salient Object Detection in the Deep Learning Era: An In-Depth Survey

刊于2019.10 单张图片的显著性，DL

作者：王文冠

摘要：本综述主要致力于回顾基于深度学习的显著性检测方法，并且从不同的网络结构、监督信号层面、学习范式层面和目标/实例检测层面进行了综述。最后，总结了已有的SOD方法的评估数据集和评价指标。

并且基于先前的方法，特意编译通过了一个SOD benchmark评价方法。我们进一步分析了深度SOD模型的鲁棒性和迁移性。

最后讨论了一些SOD方面的挑战与问题。

1.引言

略，注释在论文上。

2.DL_SOD

2.1 SOD中具有代表性的网络架构

先有MLP，后有FCN。

MLP的方法通常采用超像素或者图像区块，并且手工设计特征来进行降维，并喂给MLP或者CNN进行预测。

因为MLP-SOD通过不能够很好的提取紧要的空间信息并且对每个子单元进行处理很耗时间，基于FCN的方法流行起来。
在这里插入图片描述

1）Single-stream 单流程架构

大多都使用编码-解码流来预测粗略的显著图，然后进行精细化，或在超像素层面上。

2)mulit-stream 多流程架构

通常在不同尺度上学习显著性特征，从不同流输出的特征进行结合产生最终的显著图预测结果。

3)side-out fusion 旁侧融合架构

利用CNN层次结构的固有多尺度表示，通常由GT进行监督。

4)bottom-up/top-down 自下而上/自上而下架构

通过逐步结合底层空间信息最丰富的的特征来精细化初步的显著性估计，并且在最顶层生成最终的显著图。

DHSNet ：通过使用RNN层来逐步结合浅层特征并对粗略的显著图进行精细化，所有的中间图均由GT进行全监督。
SBF：借鉴了DHSNet的网络体系结构，但是在几种无监督的启发式SOD方法提供的弱GT上进行训练。
BDMP：使用具有多种感受野的卷积层细化特征，并且使用门控双向通路实现层间交换。
RLN：使用一个inception形模块来纯化低层特征，在自上而下通路进一步通过循环机制来细化结合的特征。显著图通过边界细化网络来增加。
PAGR：通过合并多路径循环连接将高层语义信息传递到低层，从而增强了特征提取通路的学习能力。自上而下的通路嵌入了若干个通道空间注意模块用于细化特征。
ASNet：在前馈过程中学习一个粗略的显著图，然后利用一堆卷积LSTM层通过合并来自较浅层的多层特征来迭代地推断像素方向的显著对象分割。
PiCANet：
RAS：

5)branch network 分支结构

这个大概是结合了其他任务的显著性检测，知识量过于庞杂，暂且跳过。

6)hybrid network-based 混合网络结构

类似MLP与FCN相结合，不同类型的架构进行混组。

2.2 监督层面

主要分为像素层面的全监督，或者无监督/弱监督方法

非监督/弱监督里又包含类别层面监督和伪像素层面监督。

类别监督：采用图像层面标记的层级深度特征可以定位包含物体的区域，可以用于标记场景中的显著目标。

伪像素层面监督：虽然内容丰富，图像层面的标记对于实现精确的像素级的显著性分割还是过于稀疏。有些学者提出利用传统的非监督SOD方法，或者轮廓信息去自动生成带噪声的显著图，随后将其精细化（提纯）并且提供像素级别的监督信号，用来训练深度SOD模型。

2.3 学习范式

这方面咱也不是砖家，先跳过吧。

2.4 目标/实例层面的SOD

简而言之，通常不加额外说明的显著性只分别那个像素属于显著目标，但并不区分单个像素属于哪一个具体的目标，而实例层面则需要区分每个像素所述的目标。

3.SOD数据集

早期：仅仅标注了显著目标的boundingbox，被认为是不充分不可靠的评估。

中期并且主流：像素级的大尺度数据集，常用的GT二值图。

SOD–300张图片

包含了来自于Berkeley分割数据集的300张图片，许多图片可能具有超过一个显著性目标，这些显著性目标可能相对背景有较低的颜色对比度或者触及边界。

MSRA10K (THUS10K)–10k张图片

又称之为TUHS10K，包含来自于MSRA的10k张图片并且覆盖了ASD数据集中的1000张图片。这些图片具有一致的边界框标注，并且