语义分割及前沿常用网络解析

最新推荐文章于 2025-04-14 00:10:30 发布

杨小吴的算法博客

最新推荐文章于 2025-04-14 00:10:30 发布

阅读量494

点赞数

分类专栏：语义分割 CV基础文章标签：语义分割 FCN resnet VGG segnet

本文链接：https://blog.youkuaiyun.com/yangzixuan_0608/article/details/103372391

版权

CV基础同时被 2 个专栏收录

4 篇文章

订阅专栏

语义分割

2 篇文章

订阅专栏

1   语义分割和实例分割的辨析
   语义分割
   -- 是给每个像素打上类别标签，进行语义分割之后，可以知道每个像素的类别；
   实例分割
   -- 是给每个实例画上边界，进行实例分割之后，可以知道每个实例的形状"
2   基于深度学习的语义分割方法原理
   基本步骤：图片 -> 编码/池化 -> 解码/上采样，从而将标准 CNN 编码器扩展为编码器-解码器架构
   具体流程：
   -- 在这个架构中，编码器使用卷积层和池化层将特征图尺寸缩小，使其成为更低维的表征。
   -- 解码器接收到这一表征，用通过转置卷积执行上采样而「恢复」空间维度，这样每一个转置卷积都能扩展特征图尺寸。
   -- 在某些情况下，编码器的中间步骤可用于调优解码器。
   -- 最终，解码器生成一个表示原始图像标签(即是图像类别)的数组。"
3   FCN系列模型
   FCN模型不是全连接的意思
   -- 不但不是全连接
   -- 还是 full conv的意思，即是一个全连接层都不要，而全卷积的意思
   三种常用的FCN模型：
   -- FCN-32S
   -- FCN-16S
   -- FCN-8S
   FCN模型的主要贡献：
   -- 不含全连接层(fc)的全卷积(fully conv)网络。
   -- 可适应任意尺寸输入。
   -- 增大数据尺寸的反卷积(deconv)层，能够输出精细的结果。
   -- 结合不同深度层结果的跳级(skip)结构。同时确保鲁棒性和精确性。"
4   segnet
   SegNet和FCN思路十分相似
   -- 只是Encoder,Decoder(Upsampling)使用的技术不一致。
   -- 此外SegNet的编码器部分使用的是VGG16的前13层卷积网络，每个编码器层都对应一个解码器层。
   -- 最终解码器的输出被送入soft-max分类器以独立的为每个像素产生类概率
5   VGG16
   采用连续的几个3x3的卷积核代替AlexNet中的较大卷积核（比如：11x11，7x7，5x5）
   -- 对于给定的感受野（与输出有关的输入图片的局部大小），采用堆积的小卷积核是优于采用大的卷积核，因为多层非线性层可以增加网络深度来保证学习更复杂的模式，而且代价还比较小（参数更少）。
6   mIoU
   Mean Intersection over Union(MIoU，均交并比)
   -- 为语义分割的标准度量
   -- 其计算两个集合的交并比，在语义分割的问题中，这两个集合为真实值（ground truth）和预测值（predicted segmentation）。
7   resnet
   残差函数的概念：
   -- 来自LSTM的控制门的思想，依据是这篇文章：https://zhuanlan.zhihu.com/p/42833949
   -- 这里的残差指的是某种线性变换，并不是预测值和真实值的差
   为什么要使用resnet:
   -- 因为当你使用深层网络的时候，无论你使用什么手段，最终都会出现网络退化的问题
   -- 有人试过批量归一化、随机失活等方法来缓解梯度消失和梯度爆炸，但最终都会出现网络退化
   -- 这就很奇怪，当你堆叠多层网络的时候，顶多就是比堆叠前的特征不增加而已，怎么会退化呢
   -- 为了解决这个问题，有人提出resnet残差网络
   残差网络核心逻辑：
   -- 网络中会有两种结构的残差单元，一种是浅层残差单元，一种是深层(多层)残差单元
   -- 一个残差单元是短路的，这个残差单元的输入是x_l
   -- 残差单元的输出是 x_l+1
   -- x_l+1 = 激活函数(x_l + 残差函数(xl,wl))
   -- 残差函数表示某种线性变换的关系，类似于LSTM中的gate(门)的概念
   两种残差单元结构图示：