图像分割学习笔记2

本文是图像分割学习笔记的第二部分,主要探讨DeepLab全卷积网络,包括其结构、孔(Hole)算法、膨胀卷积、Atrous空间金字塔池化和全连接CRF的应用。DeepLab通过膨胀卷积解决了FCN的低分辨率输出问题,并利用Atrous空间金字塔池化实现多尺度特征捕获,最后通过全连接CRF优化边界分割。此外,还介绍了用于语义分割的数据集,如Pascal VOC-2012和Cityscapes。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

图像分割学习笔记2

1、语义分割

1.1 DeepLab全卷积网络

  ①基本结构

    1)优化后的DCNN+传统的CRF图模型

  ②新的上采样卷积方案

    1)带孔(hole)结构的膨胀卷积(Atrous/Dilated convolution)

  ③多尺度图片表达

    1)Atrous空间金字塔池化(Atrous Spatial Pyramid Pooling)

  ④边界分割的优化

    1)使用全连接条件随机场CRF进行迭代优化 

 1.1.1 结构

  ①模块1:DCNN输出粗糙的分割结果

  ②模块2:全连接CRF精化分割结果

1.1.2 孔(Hole)算法

  ①解决原始FCN网络的输出低分辨率问题(100padding)

  ②降低池化层的降采样倍数

    1)VGG16网络Pool4和Pool5层的步长:2->1

    2)减小降采样倍数:32->8

    3)后续卷积核的感受野(Field-Of-View)会受影响(变小)

    4)这些卷积核无法用来fine-tune

  ③更改卷积核的结构->加孔(Hole)

    1)无上采样功能

    2)恢复感受野,可以用来fine-tune

    3)保证了网络最终的高分辨率输出(仅8倍降采样)

  ④卷积核结构

    1)尺寸不变(3x3),元素间距变大(1->2)

    2)步长不变(1)

  ⑤优势

    1)参数数量不变

    2)计算量不变

    3)高分辨输出

  ⑥采用层

    1)conv5:孔尺寸2

    2)conv6:孔尺寸4

1.1.3 膨胀卷积(Atrous/Dilated convolution)

  ①孔算法的正式名称

  ②与降低池化层步长配对使用,以取代上采样反卷积

  ③孔尺寸->Rate

    1)Rate越大,感受野越大

  

  

  

  ④膨胀卷积效果

    1)稀疏特征提取:x2降采样->7x7卷积->x2上采样

    2)稠密特征提取:7x7膨胀卷积

  ⑤优势

    1)参数&计算量一样

    2)灵活控制分辨率

  

1.1.4 Atrous空间金字塔池化(Atrous Spatial Pyramid Pooling)

  ①不同感受野(rate)捕捉不同尺度上的特征

  ②在conv6层引入4个并行膨胀卷积

    1)Rate:6,12,18,24

  

  ③4个并行膨胀卷积

    1)感受野:13x13,25x25,37x37,49x49

  ⑤Fc6->Fc7->Fc8

    1)深度:4096->2014->类别数量

    2)卷积核:3x3->1x1->1x1

  ⑥融合:概率相加

  

 

 1.1.5 全连接CRF

  ①作用:通过迭代精化分割结果(恢复精确边界)

  ②输入

    1)首次:FCN网络输出结果的8倍双线性插值

    2)非首次:上一轮迭代结果

  ③能量计算基于图片RGB像素值

  

1.1.6 结果

  ①第一行:飞机类别的分值(softmax之前)

  ②第二行:飞机类别的概率值(softmax之后)

 

 

1.1.7 语义分割数据集

  ①Pascal VOC-2012

    1)20个物体类别

      人类

      动物(鸟、猫、牛、狗、马、羊)

      交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车)

      室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)

    2)像素级标签9993张图片

  ②MSCOCO 

    1)80个类别

    2)COCO-stuff扩展集:172类别

      Object:80

      Stuff:91

      Unknown:1

    3)主要用于:

      实例级别的分割(Instance-level)

      图片描述(Image Captioning)

    4)http://mscoco.org/

  ③Cityscapes

    1)30个类别

    2)标注:

      5000张像素标注(pixel level)

      20000张多边形标注(instance level)

    3)辅助/自动驾驶中的语义场景理解

    4)采集于50个城市

    5)https://www.cityscapes-dataset.com

 

posted @ 2018-07-07 17:12 mjl_cv 阅读( ...) 评论( ...) 编辑 收藏
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值