计算机视觉与深度学习-06-图像分割-北邮鲁鹏老师课程笔记
视觉识别任务
语义分割
语义分割定义
给每个像素分配类别标签。
不区分实例,只考虑像素类别。
语义分割思路(滑动窗口)
滑动窗口缺点
重叠区域的特征反复被计算,效率很低。
所以针对该问题提出了新的解决方案–全卷积。
语义分割思路(全卷积)
让整个网络只包含卷积层,一次性输出所有像素的类别预测。
全卷积优点
不用将图片分为一个个小区域然后再对这一个个小区域进行分类,而是一次性输出像素的类别预测,减少了重叠区域重复计算,从而减少了运算量,加快了运算速度。
全卷积缺点
1 处理过程中一直保持原始分辨率,即卷积过程中一直保持图片长宽不变。对于显存的需求会非常庞大,甚至使得前向数据不能完整的保存在显存中。
针对这个问题,提出了先下采样然后上采样。
2 上采样是根据下采样得到的高级语义得到的,但是有时候高级语义效果并不好,还需要使用低级语义。
针对这个问题,提出了Unet,将下采样过程中的低级语义整合到上采样过程中,从而使得效果更好。
先下采样再上采样
下采样算法
pooling(池化)
strided convolution
上采样算法
unpooling(反池化)
nearest neighbor
bed of nails
unpooling缺点
人为给定的像素值可能是噪声。
人为给定的非0像素值可能原来并不在当前位置。
针对这些问题,提出了反池化操作思想–index Unpooling。
index pooling(反池化)
方式一(固定写死)
下采样时对提取的像素做索引标记,上采样时,将结果根据索引标记赋给原来提取像素的位置。
max unpooling(反池化)
方式二(自动学习)
转置卷积(Transpose Convolution)
卷积与矩阵相乘(一维例子)
[x,y,z]为卷积核,
步长1
下采样
上采样
步长2
UNET
上采样是根据下采样得到的高级语义得到的,但是有时候高级语义效果并不好,还需要使用低级语义。
针对这个问题,提出了Unet,将下采样过程中的低级语义整合到上采样过程中,从而使得效果更好。