【零基础深度学习教程第九课:图像分割基础】

本文介绍了图像分割的基本概念,包括其必要性和定义,并概述了图像分割的发展历史,从传统方法到深度学习的语义分割。重点讨论了全卷积神经网络(FCNN)和U-Net模型在图像分割中的应用,强调了U-Net的轻量化设计和特征融合策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、图像分割概念

1.1 图像分割的必要性

人类是如何描述场景的?我们可能会说“窗户下有一张桌子”,或者“沙发右边有一盏灯”。图像理解的关键在于将一个整体场景分解成几个单独的实体,这也有助于推理目标的不同行为。
虽然目标检测方法可以让计算机绘制出某些确定实体的边框,但人类对场景的理解能以像素级的精细程度对每一个实体进行检测并标记精确的边界。近年来发展的自动驾驶需要深入理解周围环境,因此精确分割实体变得越来越重要。与目标检测相比,图像分割能使我们对图像有更加细致的了解。

1.2 图像分割定义

每张图像都是由许多像素组成,而图像分割顾名思义就是将像素按照图像中表达语义含义的不同进行分组/分割
在这里插入图片描述
换句话说,语义分割其实就是为图片中的每个像素打上相应的标签,这些标签即分类类别在真实世界中的意义(例如需要区分下图中属于汽车的像素,并把这些像素涂成紫色)。图像分割呈现出的视觉效果就是图片中不同的目标有不同的颜色,如下所示:

在这里插入图片描述
简单来说,分割的目的是将一张RGB图像或是灰度图像作为输入,输出分割图。其中每一个像素包含了其类别的标签。如下图所示(为了清晰起见,使用了低分辨率的预测图,但实际上分割图的分辨率应与原始输入的分辨率相匹配):
在这里插入图片描述

1.3 分割过程

第一步:首先使用one-hot编码对类标签进行处理,实质上是为每个可能的类创建相应的输出通道。

在这里插入图片描述
第二步:通过将每个深度方向像素矢量叠加成分割图,它会照亮图像中存在特定类的区域,得到下图

在这里插入图片描述

二、图像分割发展历史

在深度学习“一统江湖”前,图像分割方面的方法可谓“百花齐放”。

2.1 传统的图像分割(2010年以前)

早期由于计算机算力有限,只能处理灰度图像,这个阶段往往是通过提取图片的低级特征,利用聚类这样的无监督方法(例如Ostu、FCM、分水岭、N-Cut等)用于分割,分割出来的结果并没有语义的标注,也就是分割出来的东西并不知道是什么,由于这样的方法没有算法训练阶段,因此往往在较困难的分割任务上无法令人满意。这些方法虽然无法对它们训练的类进行细分,但是在搜索区域界限方面比较擅长

2.2 语义分割(2012-至今)

语义分割是基于一个语义单元,利用机器学习或深度学习方法进行有监督的语义分割,例如将人和车等目标从图像中分割出来。机器学习的语义分割(2010 - 2015):随着计算能力的提高,人们开始考虑获得图像的语义分割(这里的语义是低级语义,主要指分割出来的物体的类别),人们考虑使用机器学习的方法进行图像语义分割。
深度学习的语义分割(2015 - 至今):随着FCN的出现,深度学习正式进入图像语义分割领域,这里的语义仍主要指分割出来的物体的类别,从分割结果可以清楚的知道分割出来的是什么物体。基于深度学习的分割中较为常见的分为三类:语义分割、实例分割、全景分割
实例分割(如下图)其实是目标检测和语义分割的结合。相对目标检测的边界框,实例分割可精确到物体的边缘;相对语义分割,实例分割需要标注出图上同一物体的不同个体(羊1、羊2、羊3…),目前常用的实例分割算法是Mask R-CNN。

在这里插入图片描述
全景分割是语义分割和实例分割的结合。跟实例分割不同的是,实例分割只对图像中的object进行检测,并对检测到的object进行分割,而全景分割是对图中的所有物体包括背景都要进行检测和分割。全景分割任务下,图像内的每个像素点都有其对应的语义标签和实例标签,从而能够最大程度上地理解整幅图像。
在这里插入图片描述

三、 常见深度学习分割模型

3.1 全卷积神经网络(FCNN)

卷积神经网络 (CNN) 在2012年后应用于目标分类与检测领域并取得了广泛应用,人们开始尝试将CNN用于图像分割。虽然CNN对图像分类与目标检测很有效,但是由于采用了感知域,CNN对图像特征的提取更多的是以“一小块临域”为单位的,即利用像素周围的图像块对每一个像素进行独立的分类(使用该方法的主要原因是分类网络通常含全连接层,所以要求固定尺寸的图像),因此很难做到精细(像素级)分割,不能很准确的划定物体具体的轮廓,人们迫切的需要一种新的方法实现图像像素级别的分割。
2015年全卷积网络(Fully convolutional neural network,FCNN)的提出,人们第一次尝试从抽象的语义特征直接对像素进行分类,这使得卷积网络无需全连接层即可进行密集的像素预测,使用这种方法可生成任意大小的图像分割图,因而屡屡刷新语义分割精度,基于FCNN的一系列语义分割方法相继提出,使语义分割进入了全新的发展阶段。

在这里插入图片描述

除了全连接层,使用卷积网络进行分割的另一个大问题是池化层。池化层虽然扩大了感受野,但因此造成了位置信息的丢失。而语义分割要求类别图完全贴合,因此需要保留位置信息,有两种不同结构来解决该问题:1)第一个是编码器-解码器结构(U-Net是这种方法中最常用的结构)。2)第二种方法使用空洞/带孔卷积结构,来去除池化层。

3.2 U-Net

U-net 也是一种编码-译码结构,是一种为医学图像分割而提出的一种轻量化的网络,其网络结构如下所示:
在这里插入图片描述
U-net主要贡献如下:

1)轻量化网络,要求的数据量少且速度也够快(这是由其本身针对的任务所决定的,如果进行迁移学习,很难保证达到应有的效果)
2)译码方式不同,与浅层特征融合采用的是叠加的方式
这种网络较为特殊的一点是要谨慎的选择输入图片的尺寸,要保证在进行池化时其尺寸要为偶数;这种网络较为特殊的一点是需要对特征图进行一定的裁剪,以保证译码过程进行特征融合时尺寸一致。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值