SegNet学习笔记

最新推荐文章于 2024-06-22 16:42:35 发布

原创最新推荐文章于 2024-06-22 16:42:35 发布 · 380 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

摆烂生活专栏收录该内容

18 篇文章

订阅专栏

本文介绍了SegNet模型，重点阐述了其基于VGG16的编码器网络和对称的解码器网络在语义分割任务中的关键作用，包括特征提取、池化索引保存和解码过程。通过实例展示了SegNet在CamVid和SUNRGB-D数据集上的优势，以及模型在速度上的优化。

SegNet学习笔记

语义分割
网络模型
- 编码器
- 解码器
总结

语义分割

语义分割的目的是对图像中每一个像素点进行分类，与普通的分类任务只输出某个类别不同，语义分割任务输出是与输入图像大小相同的图像，输出图像的每个像素对应了输入图像每个像素的类别。

在这里插入图片描述
图像语义分割就是机器自动分割并识别出图像中的内容，比如给出一个人骑摩托车的照片，机器判断后应当能够生成右侧图，红色标注为人，绿色是车，黑色表示背景。

网络模型

在这里插入图片描述
SegNet 其核心的训练引擎包含一个Encoder网络（采用VGG16，移除全连接层，和FCN一样），和一个对称的Decoder网络，即编码器-解码器结构，并跟随一个用于pixel-wise的分类层

编码器

在编码器处，执行卷积和最大池化。
VGG16 有 13 个卷积层，将原始的全连接层被替换成解码器。
在每个卷积层后添加BatchNormalization层。
在进行 2×2 最大池化时，会存储相应的最大池化索引（位置），用于解码器的反池化操作。

解码网络中复用max-pooling indics的好处：
改善了边界划分
减少了端到端训练的参数量
仅需要少量的修改而可合并到任何编码－解码形式的架构

解码器

在这里插入图片描述
在解码器中主要是用到了编码器中存储的max_pooling的indicate的一些坐标，这样可以不需要通过计算就恢复出来一个尺寸更大的输入图。相对于转置卷积会减少很多的计算量。

总结

在CamVid(室外)上与传统方法相比:
在这里插入图片描述
可以通过图像对比发现SegNet在很多种类上都是处于领先的正确率的水平。

在CamVid上与其他深层网络对比:
在这里插入图片描述
在SUN RGB-D(场景理解)上与其他深层网络相比:
模型时间和推断时间进行对比:

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。