一、什么是图像语义分割
分割任务到现在可以分为3种,如下图所示,依次为原图、语义分割、实例分割和全景分割。
语义分割:对图中每个像素都进行类别判断
实例分割:检测并分割每个对象实例
全景分割:语义+实例分割
二、基于深度学习的图像语义分割特定
1、网络设计
最经典的网络是FCN,它的特征是,输入的维度为[W H 3 ],通过FCN网络的输出维度是[W H C],其中C为分割的类别数。
下图所示,最左侧输入和最右侧的输出长款是一样的。
FCN对于该问题的处理方式是通过全卷积实现,如下图所示。该结构通过传统的conv进行下采样(encoder)后面在通过上采样(decoder)将feature map还原为原大小。输出的C层可以通过argmax求出最大的概率类别,最后变成[W H 1]大小的segmentation。
2、需要解决的问题
1)上采样问题:反卷积
2)底层特征融合:跳跃连接
U-Net:已一定比例引入底层特征,增加底层特征的决策权
3)感受野:空洞卷积
4)多尺度问题:ASPP
不同目标大小不一样,不同尺度的目标交给不同感受野的卷积层解决,大感受野解决大目标,小感受野解决小目标
5)算力:Depthwise、mobelnet
压缩 蒸馏
3、训练集
citys capes
passcal vol
coco
4、评价指标
iou
5.数据增强
图像归一化(range-scale、scale、step-scaling)
数据扩充(旋转、crop(任意长度)、颜色空间扰动、模糊、翻转)
6.应用
人像分割 Xception65-DeepLabv3+
车道线分割 网络用mobelnetv2-DeepLabv3+、segnet
多尺度训练
实例分割 mask-rcnn、mnc
视频分割 Davis、youtube-vos