基于VGG19的图片分割网络

原创

已于 2022-03-27 16:28:42 修改 · 5.9k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#python

于 2022-03-27 16:27:10 首次发布

本文介绍语义分割的基本概念及其实现方法，涵盖FCN、U-Net等多种网络模型，并通过PyTorch对VOC2012数据集进行实例演示。

语义分割网络

语义分割是对图像在像素级别上进行分类的方法，在一张图像中，属于同一类的像素点都要被预测为相同的类。因此语义分割是从像素级别来理解图像。

注意，语义分割仅仅是把某一类划分出来，而针对每个个体没办法进行分割(实例分割)。

常见的语义分割网络有很多，如FCN、U-Net、SegNet、DeepLab等。

FCN

FCN(Fully Convolutional Networks)属于利用深度网络进行图片语义分割的开山之作，其主要思想为：

对于一般的CNN网络分类图像，如VGG和ResNet，在网络的最后是通过全连接层，通过softmax进行分类，但这只能表示整个图片的类别。FCN把最后几个全连接层都换成了卷积操作，得到和输入图像尺寸相当的特征映射，最后通过softmax获取每个像素点的分类信息，实现像素点的图像分割。
端到端像素级语义分割任务，需要输出分类结果尺寸和输入图像尺寸一致，面对池化造成的图面尺寸缩小，FCN采用反卷积(deconvolution)进行上采样，从而保证图像大小的一致。
为了更有效的利用特征映射的信息，FCN提出一种跨层连接结构，将低层和高层的目标位置信息的特征映射进行融合，即将低层位置强语义弱的信息跟高层位置弱语义强的信息进行融合，提升网络对图像分割的性能。

U-Net

U-Net基于FCN网络提出，能够适应较小的训练集。其采用大量弹性形变的方法对数据进行增强，让模型更好的学习形变不变形。在不同特征融合方式上，U-Net采用通道维度上的拼接融合代替FCN的逐点相加。

SegNet

SegNet的网络结构借鉴了自编码网络的思想，具有编码器网络和解码器网络。最后通过softmax分类器对每个像素点进行分类。网络在编码器处会执行卷积和最大池化，在解码器部分则会执行上采样和卷积。

基于PyTorch预训练好的语义分割网络实现VOC数据集分类

数据集

本次使用VOC2012数据集，来源于：http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html。

数据集中存在20个类别的1个背景类：

Person: person

Animal: bird, cat, cow, dog, horse, sheep

Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train

Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

在Annotations文件夹中，存放有对应图片的标记文件，以XML格式存储。

网络

在Pytorch中，提供训练好的fcn和deeplabv3网络，可以用作图像分割。

实现

1.1 导入模块

需要用到的模块主要是torchvision，直接pip install torchvision即可。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import PIL.Image as Image
import torch
from torchvision import transforms
import torchvisio

1.2 数据处理

我们加载torch中训练好的全卷积残差网络fcn_resnet101，设置预训练。如果是第一次加载需要在网络上下载参数。

由于该网络已经训练好了，所以我们不再进行训练，使用其评估模式eval。该该模式下，不启用 Batch Normalization 和 Dropout。即在测试过程中保证BN层均值方差不变，在Dropout层不随机舍弃神经元。

# 导入训练好的模块
model=torchvision.models.segmentation.fcn_resnet101(pretrained=True)
model.eval()

然后就需要把我们的图像读取进来啦，这里随机选用一张VOC2012数据。

对图片需要进行预处理：

数据格式转化为张量
RGB通道标准化
添加batch维度

# 读取图片
image=Image.open(r"F:\VOCdevkit\VOC2012\JPEGImages\2007_002488.jpg")
# 图片预处理
image_transf=transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485,0.456,0.406],
                         std=[0.229,0.224,0.225])
])
image_tensor=image_transf(image).unsqueeze(0)

1.3 网络预测

output=model(image_tensor)["out"]

1.4 结果可视化

输出的Tensor是结果分类的，为了方便可视化，需要做以下处理：

将Tensor重新转为图像
定义每一类对应的色彩，并将图像编码

# 将输出转化为二维图像
outputarg=torch.argmax(output.squeeze(),dim=0).numpy()

# 获取指定颜色编码
label_colors=np.array([(0,0,0),(128,0,0),(0,128,0),(128,128,0),(0,0,128),(128,0,128),
                       (0,128,128),(128,128,128),(64,0,0),(192,0,0),(64,128,0),(192,128,0),
                       (64,0,128),(192,0,128),(64,128,128),(192,128,128),(0,64,0),(128,64,0),
                       (0,192,0),(128,192,0),(0,64,128)])

图像编码的话，先生成三个维度的初始数据，接着获取输出类别的位置，并在该位置上为三个维度附上颜色值。

# 我们对该图像进行编码，以便可视化
def decode_segmaps(image,label_colors,nc=21):
    # 先生成三个通道等大小的影像
    r=np.zeros_like(image).astype(np.uint8)
    g=np.zeros_like(image).astype(np.uint8)
    b=np.zeros_like(image).astype(np.uint8)
    for cla in range(0,nc):
        idx=(image==cla) # 某一类的位置索引
        r[idx]=label_colors[cla,0]
        g[idx]=label_colors[cla,1]
        b[idx]=label_colors[cla,2]
    # 三通道转为图像
    rgbimage=np.stack([r,g,b],axis=2)
    return rgbimage

最后输出即可

# 进行可视化
outputrgb=decode_segmaps(outputarg,label_colors)
plt.figure(figsize=(12,8))
plt.subplot(1,2,1)
plt.imshow(image)
plt.axis("off")
plt.subplot(1,2,2)
plt.imshow(outputrgb)
plt.axis("off")
plt.subplots_adjust(wspace=0.05)
plt.show()