【深度学习速通笔记】全卷积神经网络,FCN(Fully Convolutional Networks )【上:概念理解】

1. 常用数据集、指标、研究成果

语义分割问题常用数据集:CamVid(最简单最迷你的,适合新手入门,700张)、CityScapes(应用频率较高,比较完善,5000张)、PASCAL VOC(综合场景,常用)、NYUDv2(室内场景)、SUNRGBD(室内场景)。
在这里插入图片描述
语义分割常用指标
假设:
k+1个类别,p(ij)表示本属于类i但被预测为类j的像素数量。
Pixel Accuracy(PA像素精度):标记正确的像素占总像素的比例;
在这里插入图片描述
Mean Pixel Accuracy(MPA均像素精度):计算每个类内被正确分类像素数的比例,再求所有类的平均;
在这里插入图片描述
Mean Intersection over Union(MIoU均交并比):计算真实值和预测值的交集和并集;
在这里插入图片描述
研究成果

  1. 将分类网络改编为全卷积神经网络
  2. 全卷积神经网络:“全连接层→卷积层”+“通过反卷积进行上采样”;
  3. 使用迁移学习的方法进行微调
  4. 使用跳跃结构使得语义信息可以和表征信息相结合,产生准确而精细的分割;

2. 论文摘要精读

Fully Convolutional Networks for Semantic Segmentation

论文结构
在这里插入图片描述

摘要重点信息

  1. 之前的分类网络(VGG)是输入图片,输出识别是什么东西的对应概率值;现在的FCN是输入图片,输出同样是图片,但在输出图片上会用不同的颜色标记识别出的不同东西;
  2. FCN输入的图片是任意尺寸,输出同样尺寸的图片;
  3. 密集预测任务(dense prediction tasks)= 像素级预测任务(像素对像素,pixel to pixel);
  4. 在经典分类方法(AlexNet、VGGnet、GoogleNet)的基础上,将全连接改为全卷积;通过微调(fine-tuning)的方法将学习表现传递到分割任务中(即,迁移学习);
  5. 深层的语义信息(or全局信息,semantic information from a deep, coarse layer)和浅层的表征信息(or局部信息,appearance information from a shallow, fine layer)相结合;
  6. 成果:在PASCAL VOC数据集上,可以提升20%的精确度,达到了62.2%;一般图片可以在0.2秒之内实现识别,很快啊,有利于实时应用。
    在这里插入图片描述

端到端训练(End-to-End training)
在计算机视觉领域的端到端可理解为,输入是原始图像,输出是预测图像,中间的具体过程依赖于算法本身的学习能力;
通过网络内部结构,对原始图像进行降维和特征提取,并在后续过程中上采样(将尺寸较小的特征图逐渐恢复成与原图尺寸相同的预测图,上采样的方法:线性插值、反卷积、反池化,etc)。

深度学习网络发展历程
特征提取的这一步骤,从一开始人类手动提取发展到后来通过算法自动实现打包成黑匣子;
特征提取的好坏将直接影响最后的预测结果,深度学习的最主要特点是根据设计好的算法自己学习特征,而不需要人为干预;
在这里插入图片描述
分割术语(Segmentation terminology)
pixel-wise(pixels-to-pixels),像素级别:每张图片都是由一个个pixel组成的,pixel是图像的基本单位
image-wise图像级别:比如一张图片的标签是狗,即“狗”是对整个图片的标注
patch-wise块级别:介于像素级别和图像级别之间,每个patch都是由好多个pixel组成的
patchwise training:是指对每一个感兴趣的像素,以它为中心取一个patch(小块),然后输入网络,输出则为该像素的标签

3. 论文引言,全局信息和局部信息

引言

This is the first work to train FCNs end-to-end for pixelwise prediction and from supercised pre-training.

有监督的预训练(supervised pre-training,迁移学习):将先前的模型(Vggnet,Alexnet)在大型数据集上训练的权重导入FCN用于预训练。

Both learning and inference are performed whole-image-at-a-time by dense feedforward computation and backpropagation.

前向传播(feedforward computation):推理/预测;(前向传播得到较小像素的特征预测图,在通过上采样恢复成原来像素大小的图片)
反向传播(backpropagation):反向提取特征值,进行学习;
即,上采样预测,下采样学习;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值