1 语义分割和实例分割的辨析
语义分割
-- 是给每个像素打上类别标签,进行语义分割之后,可以知道每个像素的类别;
实例分割
-- 是给每个实例画上边界,进行实例分割之后,可以知道每个实例的形状"
2 基于深度学习的语义分割方法原理
基本步骤:图片 -> 编码/池化 -> 解码/上采样,从而将标准 CNN 编码器扩展为编码器-解码器架构
具体流程:
-- 在这个架构中,编码器使用卷积层和池化层将特征图尺寸缩小,使其成为更低维的表征。
-- 解码器接收到这一表征,用通过转置卷积执行上采样而「恢复」空间维度,这样每一个转置卷积都能扩展特征图尺寸。
-- 在某些情况下,编码器的中间步骤可用于调优解码器。
-- 最终,解码器生成一个表示原始图像标签(即是图像类别)的数组。"
3 FCN系列模型
FCN模型不是全连接的意思
-- 不但不是全连接
-- 还是 full conv的意思,即是一个全连接层都不要,而全卷积的意思
三种常用的FCN模型:
-- FCN-32S
-- FCN-16S
-- FCN-8S
FCN模型的主要贡献:
-- 不含全连接层(fc)的全卷积(fully conv)网络。
-- 可适应任意尺寸输入。
-- 增大数据尺寸的反卷积(deconv)层,能够输出精细的结果。
-- 结合不同深度层结果的跳级(skip)结构。同时确保鲁棒性和精确性。"
4 segnet
SegNet和FCN思路十分相似
-- 只是Encoder,Decoder(Upsampling)使用的技术不一致。
-- 此外SegNet的编码器部分使用的是VGG16的前13层卷积网络,每个编码器层都对应一个解码器层。
-- 最终解码器的输出被送入soft-max分类器以独立的为每个像素产生类概率
5 VGG16
采用连续的几个3x3的卷积核代替AlexNet中的较大卷积核(比如:11x11,7x7,5x5)
-- 对于给定的感受野(与输出有关的输入图片的局部大小),采用堆积的小卷积核是优于采用大的卷积核,因为多层非线性层可以增加网络深度来保证学习更复杂的模式,而且代价还比较小(参数更少)。
6 mIoU
Mean Intersection over Union(MIoU,均交并比)
-- 为语义分割的标准度量
-- 其计算两个集合的交并比,在语义分割的问题中,这两个集合为真实值(ground truth)和预测值(predicted segmentation)。
7 resnet
残差函数的概念:
-- 来自LSTM的控制门的思想,依据是这篇文章:https://zhuanlan.zhihu.com/p/42833949
-- 这里的残差指的是某种线性变换,并不是预测值和真实值的差
为什么要使用resnet:
-- 因为当你使用深层网络的时候,无论你使用什么手段,最终都会出现网络退化的问题
-- 有人试过批量归一化、随机失活等方法来缓解梯度消失和梯度爆炸,但最终都会出现网络退化
-- 这就很奇怪,当你堆叠多层网络的时候,顶多就是比堆叠前的特征不增加而已,怎么会退化呢
-- 为了解决这个问题,有人提出resnet残差网络
残差网络核心逻辑:
-- 网络中会有两种结构的残差单元,一种是浅层残差单元,一种是深层(多层)残差单元
-- 一个残差单元是短路的,这个残差单元的输入是x_l
-- 残差单元的输出是 x_l+1
-- x_l+1 = 激活函数(x_l + 残差函数(xl,wl))
-- 残差函数表示某种线性变换的关系,类似于LSTM中的gate(门)的概念
两种残差单元结构图示:
语义分割及前沿常用网络解析
最新推荐文章于 2025-04-14 00:10:30 发布