【计算机视觉】计算机视觉与深度学习-06-语义分割-北邮鲁鹏老师课程笔记

本文概述了计算机视觉中的语义分割技术,从滑动窗口方法的局限性到全卷积网络的高效解决方案。讨论了全卷积的优点、缺点及解决策略,包括下采样(pooling和stridedconvolution)、上采样(unpooling),以及UNet在融合低级和高级语义上的贡献。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

视觉识别任务

在这里插入图片描述在这里插入图片描述

语义分割

语义分割定义

给每个像素分配类别标签。

不区分实例,只考虑像素类别。
在这里插入图片描述

语义分割思路(滑动窗口)

在这里插入图片描述

滑动窗口缺点

重叠区域的特征反复被计算,效率很低。

所以针对该问题提出了新的解决方案–全卷积。

语义分割思路(全卷积)

让整个网络只包含卷积层,一次性输出所有像素的类别预测。
在这里插入图片描述

全卷积优点

不用将图片分为一个个小区域然后再对这一个个小区域进行分类,而是一次性输出像素的类别预测,减少了重叠区域重复计算,从而减少了运算量,加快了运算速度。

全卷积缺点

1 处理过程中一直保持原始分辨率,即卷积过程中一直保持图片长宽不变。对于显存的需求会非常庞大,甚至使得前向数据不能完整的保存在显存中。

针对这个问题,提出了先下采样然后上采样。

2 上采样是根据下采样得到的高级语义得到的,但是有时候高级语义效果并不好,还需要使用低级语义。

针对这个问题,提出了Unet,将下采样过程中的低级语义整合到上采样过程中,从而使得效果更好。

先下采样再上采样

在这里插入图片描述

下采样算法
pooling(池化)
strided convolution

上采样算法

unpooling(反池化)
nearest neighbor
bed of nails

在这里插入图片描述

unpooling缺点

人为给定的像素值可能是噪声。
人为给定的非0像素值可能原来并不在当前位置。

针对这些问题,提出了反池化操作思想–index Unpooling。

index pooling(反池化)
方式一(固定写死)

下采样时对提取的像素做索引标记,上采样时,将结果根据索引标记赋给原来提取像素的位置。

max unpooling(反池化)

在这里插入图片描述

方式二(自动学习)
转置卷积(Transpose Convolution)

在这里插入图片描述在这里插入图片描述

卷积与矩阵相乘(一维例子)

[x,y,z]为卷积核,

步长1
下采样

在这里插入图片描述

上采样

在这里插入图片描述

步长2

在这里插入图片描述

UNET

上采样是根据下采样得到的高级语义得到的,但是有时候高级语义效果并不好,还需要使用低级语义。

针对这个问题,提出了Unet,将下采样过程中的低级语义整合到上采样过程中,从而使得效果更好。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值