这是总结的一个组会报告,小白参考了一些大神的图片和文字,非常感谢~
图像语义分割
普通的图像分割,通常意味着传统语义分割,这个时期的图像分割,由于计算机计算能力有限,早期只能处理一些灰度图,后来才能处理rgb图,这个时期的分割主要是通过提取图片的低级特征,然后进行分割.这个阶段一般是非监督学习,分割出来的结果并没有语义的标注,换句话说,分割出来的东西并不知道是什么。
随后,随着计算能力的提高,人们开始考虑图像的语义分割,这里的语义目前是低级语义,主要指分割出来的物体的类别,这个阶段人们考虑使用机器学习的方法进行图像语义分割。
随着FCN的出现,深度学习正式进入图像语义分割领域,这里的语义仍主要指分割出来的物体的类别,从分割结果可以清楚的知道分割出来的是什么物体,比如猫、狗等等。
常用的数据集:
Pascal VOC 2012:有 20 类目标,这些目标包括人类、机动车类以及其他类,可用于目标类别或背景的分割
Cityscapes:50 个城市的城市场景语义理解数据集
Pascal Context:有 400 多类的室内和室外场景
Stanford Background Dataset:至少有一个前景物体的一组户外场景。
评价标准:
1.执行时间
2.内存占用
3.精确度
MIoU,均交并比:计算两个集合的交集和并集之比,这两个集合为真实值和预测值
论文一:
Fully Convolutional Networks for Semantic Segmentation
发表在:IEEE Transactions on Pattern Analysis and Machine Intelligence
IEEE模式分析与机器智能汇刊
通常CNN网络在卷积层之后会接上若干个全连接层, 将卷积层产生的特征图映射成一个固定长度的特征向量。以AlexNet为代表的经典CNN结构适合于图像级的分类和回归任务,因为它们最后都得到整个输入图像的一个概率向量,比如AlexNet的ImageNet模型输出一个1000维的向量表示输入图像属于每一类的概率。
示例:猫的图片输入到AlexNet, 得到一个长为1000的输出向量, 表示输入图像属于每一类的概率, 其中在“tabby cat”这一类统计概率最高, 用来做分类任务
缺点:
cnn的每一个卷积层,都包含了 [卷积 + 池化] 处理,这就是大家熟知的下采样,但这样处理之后的结果是:图像的像素信息变小了,因此cnn不能输出像素级别的图像。
cnn接收的图片必须是同一尺寸的。
作者的创新点:
1)不含全连接层的全卷积网络。可适应任意尺寸输入。
2)增大数据尺寸的反卷积层。能够输出精细的结果。
3)结合不同深度层结果的跳级(skip)结构。同时确保鲁棒性和精确性。
1)简单来说,FCN与CNN的区域在把于CNN最后的全连接层换成卷积层,输出的是一张已经