语义分割及前沿常用网络解析

1    语义分割和实例分割的辨析    
    语义分割

    -- 是给每个像素打上类别标签,进行语义分割之后,可以知道每个像素的类别;
    实例分割
    -- 是给每个实例画上边界,进行实例分割之后,可以知道每个实例的形状"    
2    基于深度学习的语义分割方法原理    
    基本步骤:图片 -> 编码/池化 -> 解码/上采样,从而将标准 CNN 编码器扩展为编码器-解码器架构
    具体流程
    -- 在这个架构中,编码器使用卷积层和池化层将特征图尺寸缩小,使其成为更低维的表征。
    -- 解码器接收到这一表征,用通过转置卷积执行上采样而「恢复」空间维度,这样每一个转置卷积都能扩展特征图尺寸。
    -- 在某些情况下,编码器的中间步骤可用于调优解码器。
    -- 最终,解码器生成一个表示原始图像标签(即是图像类别)的数组。"
3    FCN系列模型    
    FCN模型不是全连接的意思

    -- 不但不是全连接
    -- 还是 full conv的意思,即是一个全连接层都不要,而全卷积的意思
    三种常用的FCN模型:
    -- FCN-32S 
    -- FCN-16S
    -- FCN-8S
    FCN模型的主要贡献:
    -- 不含全连接层(fc)的全卷积(fully conv)网络。
    -- 可适应任意尺寸输入。
    -- 增大数据尺寸的反卷积(deconv)层,能够输出精细的结果。
    -- 结合不同深度层结果的跳级(skip)结构。同时确保鲁棒性和精确性。"
4    segnet        
    SegNet和FCN思路十分相似

    -- 只是Encoder,Decoder(Upsampling)使用的技术不一致。
    -- 此外SegNet的编码器部分使用的是VGG16的前13层卷积网络,每个编码器层都对应一个解码器层。
    -- 最终解码器的输出被送入soft-max分类器以独立的为每个像素产生类概率
5    VGG16    
    采用连续的几个3x3的卷积核代替AlexNet中的较大卷积核(比如:11x11,7x7,5x5)
    -- 对于给定的感受野(与输出有关的输入图片的局部大小),采用堆积的小卷积核是优于采用大的卷积核,因为多层非线性层可以增加网络深度来保证学习更复杂的模式,而且代价还比较小(参数更少)。
6    mIoU    
    Mean Intersection over Union(MIoU,均交并比)
    -- 为语义分割的标准度量
    -- 其计算两个集合的交并比,在语义分割的问题中,这两个集合为真实值(ground truth)和预测值(predicted segmentation)。
7    resnet    
    残差函数的概念:

    -- 来自LSTM的控制门的思想,依据是这篇文章:https://zhuanlan.zhihu.com/p/42833949
    -- 这里的残差指的是某种线性变换,并不是预测值和真实值的差
    为什么要使用resnet:
    -- 因为当你使用深层网络的时候,无论你使用什么手段,最终都会出现网络退化的问题
    -- 有人试过批量归一化、随机失活等方法来缓解梯度消失和梯度爆炸,但最终都会出现网络退化
    -- 这就很奇怪,当你堆叠多层网络的时候,顶多就是比堆叠前的特征不增加而已,怎么会退化呢
    -- 为了解决这个问题,有人提出resnet残差网络
    残差网络核心逻辑:
    -- 网络中会有两种结构的残差单元,一种是浅层残差单元,一种是深层(多层)残差单元
    -- 一个残差单元是短路的,这个残差单元的输入是x_l
    -- 残差单元的输出是 x_l+1
    -- x_l+1 = 激活函数(x_l + 残差函数(xl,wl))
    -- 残差函数表示某种线性变换的关系,类似于LSTM中的gate(门)的概念
    两种残差单元结构图示:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值