目录
一. 语义分割的含义
语义分割是计算机视觉中的基本任务,在语义分割中我们需要将视觉输入分为不同的语义可解释类别,「语义的可解释性」即分类类别在真实世界中是有意义的。例如,我们可能需要区分图像中属于汽车的所有像素,并把这些像素涂成蓝色。
我们将 图像分类,目标检测 和 语义分割 进行对比 可以让我们更好的理解语义分割。
图像分类: 通过 提取特征,输出 待测图片趋向于某个种类
目标检测: 通过 提取特征,输出 待测图片中不同物体的位置与种类
语义分割: 通过 提取特征, 输出 待测图片的每个像素点的种类
二. SegNet语义分割模型
SegNet是一种用于语义分割的深度全卷积神经网络结构,其核心由一个编码器网络和一个对应的解码器网络以及一个像素级分类层组成。
如下图所示, 一般的分类,或者检测的特征提取 是通过卷积提取特征, size不断的缩小, 特征维度不断的增高。如同图中的Encoder部分,最后直接接个激活层得出类别信息。 而 语义分割则是在后面跟上 一个Decoder部分, 将前面提取出的高维特征 Size不断增大, 维度不断减少,最后输出的 层的张量直接是 图片的像素点分类结果。