深度学习语义分割FCN理解

本文探讨了全卷积网络(FCN)如何保留深度特征的空间信息,通过将全连接层替换为卷积层,并介绍了几种图像复原技术如双线性插值和转置卷积。此外还讨论了融合不同层级的特征以提高细节处理能力的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

深度学习分类网络CNN在对图像的特征进行提取之后都进行了数个全连接网络进行分类预测,从而让得到的深度特征丢失了空间信息。如下图,通过最后的三层全连接输出1000个分类的概率进行判断图像类别。

在这里插入图片描述
为了不丢失深度特征的空间信息,FCN采用将对每一个pixel进行分类预测,采用的措施是将最后的三层全连接改成卷积,同时输出的是FFclasses的heatmap,接下来进行图像复原“复原”,放大到原来图像的尺寸大小再进行每一个像素的类别预测,这里的复原技术有许多,最简单的是双线性插值,还有转置卷积等。
FCN
这里边需要注意的是,使用双线性插值进行复原时我们可以理解为整个可训练的模型就截止到1000分类卷积,应为双线性插值不需要提供任何额外的参数。而转置卷积,则还可以通过转置的权重训练来调整预测输出。(ps:这个是我个人的理解,如有不对烦请务必提醒我更改)

从下图可以看出,使用只使用最后的一层卷积输出进行32s预测的像素是非常粗糙的,为此分别采用融合pool4 和pool3的信息可以使得细节处理到位。
在这里插入图片描述
在这里插入图片描述
以上是个人的一些理解
更为详细的推荐阅读:
https://zhuanlan.zhihu.com/p/22976342
https://zhuanlan.zhihu.com/p/30195134

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值