语义分割(FCN,UNET,DEEPLAB)
语义分割的目的是对图像中的每一个像素点进行分类,从而确定每个像素点所属的类别。(从像素级别进行分类)
1.FCN(Fully Convolustional Networks)
VGG和Resnet等CNN网络通过在网络最后加入全连接层,然后再经过softmax获得类别的概率信息,得到的一维概率信息可以对整张图片的类别进行识别。FCN提出将网络后边的全连接层全部换成卷积,从而得到二维的特征图(feature map),使用反卷积层对特征图进行上采样,恢复到与图像相同的尺寸,从而对每一个像素均产生一个预测结果,进而解决分割问题(FCN是在抽象的特征图中恢复每个像素的类别)。

FCN的结构和操作流程如下:

- 首先使用全卷积提取特征(虚线以上部分),图中的蓝色快为卷积块,绿色块为max pooling块。输入可以为任意尺寸的彩色图像,输出图像的尺寸与输入尺寸相同。
- 然后分别从卷积网络的不同阶段预测分类结果(虚线以下部分),原始图片经过多层卷积与池化操作后,得到的图像越来越下,分别率越来越低,图像最小时被称为Heatmap热图(即特征图)。使用反卷积操作对特征图进行上采样,直到恢复到与输入图像相同的尺寸,从而对每个像素产生预测。假设输入图像大小为nnc,类别数为C,那么恢复的图像大小为nnC,通过逐个像素地求其在C张图像的该像素的最大数值描述(概率)作为该像素的分类。也就说最后恢复的图像已经被分类完成。<

本文介绍了语义分割领域的三种关键技术:FCN、UNET和DEEPLAB。FCN通过全卷积网络和反卷积层实现像素级别的分类。UNET采用编码器-解码器结构,通过skip connection融合高低层次特征。DEEPLAB系列则引入空洞卷积和ASPP模块,解决多尺度问题,提升分割精度。
最低0.47元/天 解锁文章
4376

被折叠的 条评论
为什么被折叠?



