【公众号】基于弱监督深度学习的图像分割方法综述

最新推荐文章于 2024-07-27 12:49:56 发布

原创

最新推荐文章于 2024-07-27 12:49:56 发布 · 2.7k 阅读

17 ·

CC 4.0 BY-SA版权

本系列记录了博主为公众号【有三AI】撰写的稿件，了解更多可以扫描文末二维码。

本文为基于弱监督深度学习的图像分割方法综述，更新于2019.03.20。

基于弱监督深度学习的图像分割方法综述

基础概念
为什么要弱监督学习
常用的弱监督分割算法
总结一下
参考文献

基础概念

生活中，我们和周围的事物都是有“标签”的，比如人、杯子、天空等等。在不同的场景下，相同的事物可能对应了不同的标签，比如长在地上的一片小草称为“草地”，长在花盆里的很可能属于“盆栽”，画在画中的又属于“装饰”。

如果把整幅图像比作我们生活的世界，那么具有相同“标签”的像素就组成了我们和周围的事物。图像分割的任务就是给这些像素标注它们所对应的“标签”，而这个标签通常取决于这个像素所属于的“整体”的类别。比如下图中就被分割成了天空、植被、草地和大象。

在这里插入图片描述

当然，与生活中相似，根据分类方式的不同，一个像素可能属于多种类别。比如下图中组成椅子的像素，按照整体应标注为“椅子”，细分下又属于“椅背”，按照材料分又属于“木头”。

在这里插入图片描述

根据方法和任务的不同，图像分割可以分成很多类。比如在只关心图像主要内容的时候，类别可能只有两类：前景（关心的内容）和背景（除前景之外的其他部分，即不关心的内容）。或者只关心可数的目标，比如行人、自行车、杯子等等；或只关心不可数目标，比如天空、草地、海洋等。由此，我们给出了下面两种可能的分类方式：

按模型分类： 根据实现分割的手段，图像分割可以大致分为传统方法与基于深度学习的方法。前者依靠纯数学公式推导实现分割，而后者则依靠深度学习结构（如神经网络、随机树等）实现分割。
按任务分类： 根据图像分割的具体任务，又可以将其分为语义分割（semantic segmentation）、实例分割（instance segmentation）与全景分割（panoptic segmentation）。

在这里插入图片描述
如上图所示，语义分割是比较容易的一种，其要求的是对所有像素点进行类别标注，比如天空、车、杯子等，但是不区分相同类别的个体，即所有属于“杯子”的像素点都被标注成相同的标签。而实例分割比语义分割困难一些，其不仅要求要标注像素点，还要区分相同类别的不同实例，比如“这个杯子”和“那个杯子”。

但是实例分割受限其要求，通常都是对可数的物体进行分割，而在不可数内容上（比如草地、马路等），要么没有分割，要么属于一个类别。当其将属于某一个不可数类别的像素点都标注成相同标签，而所有属于可数类别的像素点按实例标注时，就成为了所谓的全景分割（如下图所示）。

在这里插入图片描述

本文中我们主要介绍基于深度学习的图像分割方法，包括语义分割、实例分割和全景分割。

为什么要弱监督学习

像前面说过的，图像分割的任务是对每个像素都进行标注。因此，在深度学习方法中，直观上就需要所有的像素都有真值标注。不难看出，这个要求下，真值标注的生成是极度耗时耗力的，尤其是以人工标注的方式。比如，CityScapes数据库，在精标条件下，一张图片的标注就需要1.5个小时。如此一来，数据库标注的成本可想而知。

基于此，许多研究人员就想到用弱监督的方式进行网络训练，从而降低标注成本。所谓弱监督，就是用更容易获得的真值标注替代逐像素的真值标注，常见的输入有image-level tags和bounding boxes。下图给出的是这两种标注的示例。

在这里插入图片描述
image-level tag：一张图片对应一个标签。如上图，标签为“猫”。