昇思25天学习打卡营第18天|应用实践之FCN图像语义分割

最新推荐文章于 2025-05-14 13:07:11 发布

_xiaowen_

最新推荐文章于 2025-05-14 13:07:11 发布

阅读量1k

点赞数 25

文章标签：学习人工智能图像语义分割

本文链接：https://blog.youkuaiyun.com/m0_52501541/article/details/140308654

版权

基本介绍

今天的应用实践是计算机领域的图像语义分割任务，该任务比目标检测任务还要难，除了要识别物体类别和位置，还要标注出来，像素级的标注。图像语义分割（semantic segmentation）是图像处理和机器视觉技术中关于图像理解的重要一环，AI领域中一个重要分支，常被应用于人脸识别、物体检测、医学影像、卫星图像分析、自动驾驶感知等领域。语义分割的目的是对图像中每个像素点进行分类。与普通的分类任务只输出某个类别不同，语义分割任务输出与输入大小相同的图像，输出图像的每个像素对应了输入图像每个像素的类别。语义在图像领域指的是图像的内容，对图片意思的理解。本文会先介绍图像语义分割的开山之作FCN，简单介绍一下这个模型，然后进行代码实践，使用PASCAL VOC 2012数据集和SDB数据集进行训练，然后评估模型好坏，并进行可视化推理，观测模型实际使用效果。

FCN模型简介

FCN主要用于图像分割领域，是一种端到端的预测直接得分割方法，是深度学习应用在图像语义分割的开山之作。通过进行像素级的出与原图大小相等的label map。因FCN丢弃全连接层替换为全卷积层，网络所有层均为卷积层，故称为全卷积网络。FCN主要采用三种技术：

卷积化

使用VGG-16作为FCN的backbone。VGG-16的输入为224*224的RGB图像，输出为1000个预测值。VGG-16只能接受固定大小的输入，丢弃了空间坐标，产生非空间输出。VGG-16中共有三个全连接层，全连接层也可视为带有覆盖整个区域的卷积。将全连接层转换为卷积层能使网络输出由一维非空间输出变为二维矩阵，利用输出能生成输入图片映射的heatmap

上采样

在卷积过程的卷积操作和池化操作会使得特征图的尺寸变小，为得到原图的大小的稠密图像预测，需要对得到的特征图进行上采样操作。使用双线性插值的参数来初始化上采样逆卷积的参数，后通过反向传播来学习非线性上采样。在网络中执行上采样，以通过像素损失的反向传播进行端到端的学习。

跳跃结构

利用上采样技巧对最后一层的特征图进行上采样得到原图大小的分割是步长为32像素的预测，称之为FCN-32s。由于最后一层的特征图太小，损失过多细节，采用skips结构将更具有全局信息的最后一层预测和更浅层的预测结合，使预测结果获取更多的局部细节。将底层（stride 32）的预测（FCN-32s）进行2倍的上采样得到原尺寸的图像，并与从pool4层（stride 16）进行的预测融合起来（相加），这一部分的网络被称为FCN-16s。随后将这一部分的预测再进行一次2倍的上采样并与从pool3层得到的预测融合起来，这一部分的网络被称为FCN-8s。 Skips结构将深层的全局信息与浅层的局部信息相结合。

FCN代码实践

我们会从数据集准备到模型搭建，再到模型训练与评估，最后再进行可视化推理来完成FCN代码实践，但是这些只是简单介绍，并记录本人认为的重要代码。

数据集准备

数据集采用PASCAL VOC 2012数据集和SDB数据集进行训练。由于PASCAL VOC 2012数据集中图像的分辨率大多不一致，无法放在一个tensor中，故输入前需做标准化处理。处理后再和SDB数据集进行混合。处理代码如下：

class SegDataset:
    def __init__(self,

最低0.47元/天解锁文章