一、图像分割定义与场景
1、概念:预测目标的轮廓。将不同的像素划分到不同的类别,非常细粒度的分类。
2、应用场景:人像抠图,医学组织提取,遥感图像分析,自动驾驶,材料图像等
3、前景有背景
物体Things:可数前景目标(行人等)。 事物Stuff:不可数背景(天空,草地,路面)。
4、三层境界:语义分割、实例分割、全景分割。
语义分割:每一个像素必须只能属于一类,预测结果为掩膜
实例分割:只预测前景目标的类别属性以及边框,个体ID,每一个像素可以属于多个ID。
全景分割:每个像素点分配一个语义类别和一个唯一的实例ID
二、图像分割的数据集
1、VOC数据集:PASCAL VOC挑战赛(The PASCAL Visual Object Classes)是一个世界级的计算机视觉挑战赛。从2007年开始引进了语义分割和实例分割的标注。VOC数据集:一共2913张图,1464张训练图片,1449张验证图片。
2、Cityscape数据集:50个城市在春夏秋三个季节不同时间段不同场景、背景的街景图。有30个类别。5000张精细标注的图像(2975张训练图、500张验证图和1525张测试图)、20000张粗略标注的图像。
3、COCO数据集:以场景理解为目标,特别选取比较复杂的日常场景。数据集图像特点。共91类,以人类4岁小孩能够辨识为基准,其中82类有超过5000个instance。
三、语义分割的评估指标
1、Pixel Accuracy:逐像素分类精度。
2、Mean Pixel Accuracy:每个类内被正确分类像素数的比例。
3、IoU:前景目标交并比。
4、mIoU:每个类的IoU平均值。
5、FWIoU:根据每个类出现的概率给mIoU计算权重。
四、图像分割网络的两个模块
典型的图像分割网络由卷积网络(编码器)和解码器(反卷积网络)组成,编码器负责提取特征,解码器利用这些特征生成最终的分割结果。
1、卷积模块:提取特征。
(1)输入4*4,
(2)输出2*2,
(3)卷积核3*3,
2、反卷积模块:上采样恢复到原图尺度。
(1)输入2*2,
(2)输出4*4,
(3)卷积核3*3
3、卷积与反卷积