SegNet学习笔记

本文介绍了SegNet模型,重点阐述了其基于VGG16的编码器网络和对称的解码器网络在语义分割任务中的关键作用,包括特征提取、池化索引保存和解码过程。通过实例展示了SegNet在CamVid和SUNRGB-D数据集上的优势,以及模型在速度上的优化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

语义分割

语义分割的目的是对图像中每一个像素点进行分类,与普通的分类任务只输出某个类别不同,语义分割任务输出是与输入图像大小相同的图像,输出图像的每个像素对应了输入图像每个像素的类别。

在这里插入图片描述
图像语义分割就是机器自动分割并识别出图像中的内容,比如给出一个人骑摩托车的照片,机器判断后应当能够生成右侧图,红色标注为人,绿色是车,黑色表示背景。

网络模型

在这里插入图片描述
SegNet 其核心的训练引擎包含一个Encoder网络(采用VGG16,移除全连接层 ,和FCN一样),和一个对称的Decoder网络,即编码器-解码器结构,并跟随一个用于pixel-wise的分类层

编码器

  • 在编码器处,执行卷积和最大池化。

  • VGG16 有 13 个卷积层,将原始的全连接层被替换成解码器。

  • 在每个卷积层后添加BatchNormalization层。

  • 在进行 2×2 最大池化时,会存储相应的最大池化索引(位置),用于解码器的反池化操作。

    解码网络中复用max-pooling indics的好处:

  • 改善了边界划分

  • 减少了端到端训练的参数量

  • 仅需要少量的修改而可合并到任何编码-解码形式的架构

解码器

在这里插入图片描述
在解码器中主要是用到了编码器中存储的max_pooling的indicate的一些坐标,这样可以不需要通过计算就恢复出来一个尺寸更大的输入图。相对于转置卷积会减少很多的计算量。

总结

在CamVid(室外)上与传统方法相比:
在这里插入图片描述
可以通过图像对比发现SegNet在很多种类上都是处于领先的正确率的水平。

在CamVid上与其他深层网络对比:
在这里插入图片描述
在SUN RGB-D(场景理解)上与其他深层网络相比:在这里插入图片描述
模型时间和推断时间进行对比:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值