图像语义分割学习笔记

博客介绍了图像语义分割,包括语义、实例和全景分割的概念。阐述基于深度学习的图像语义分割特点,如经典网络FCN的结构与处理方式,还提及需解决的上采样、底层特征融合等问题,介绍训练集、评价指标、数据增强方法及在人像、车道线等方面的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、什么是图像语义分割

分割任务到现在可以分为3种,如下图所示,依次为原图、语义分割、实例分割和全景分割。
在这里插入图片描述

语义分割:对图中每个像素都进行类别判断
实例分割:检测并分割每个对象实例
全景分割:语义+实例分割

二、基于深度学习的图像语义分割特定

1、网络设计
最经典的网络是FCN,它的特征是,输入的维度为[W H 3 ],通过FCN网络的输出维度是[W H C],其中C为分割的类别数。
下图所示,最左侧输入和最右侧的输出长款是一样的。

在这里插入图片描述
FCN对于该问题的处理方式是通过全卷积实现,如下图所示。该结构通过传统的conv进行下采样(encoder)后面在通过上采样(decoder)将feature map还原为原大小。输出的C层可以通过argmax求出最大的概率类别,最后变成[W H 1]大小的segmentation。
在这里插入图片描述

2、需要解决的问题
1)上采样问题:反卷积
在这里插入图片描述

2)底层特征融合:跳跃连接
U-Net:已一定比例引入底层特征,增加底层特征的决策权
3)感受野:空洞卷积
在这里插入图片描述

4)多尺度问题:ASPP
不同目标大小不一样,不同尺度的目标交给不同感受野的卷积层解决,大感受野解决大目标,小感受野解决小目标

5)算力:Depthwise、mobelnet
压缩 蒸馏
3、训练集
citys capes
passcal vol
coco
4、评价指标
iou
5.数据增强
图像归一化(range-scale、scale、step-scaling)
数据扩充(旋转、crop(任意长度)、颜色空间扰动、模糊、翻转)

6.应用
人像分割 Xception65-DeepLabv3+
车道线分割 网络用mobelnetv2-DeepLabv3+、segnet
多尺度训练
实例分割 mask-rcnn、mnc
视频分割 Davis、youtube-vos

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值