Lecture 13 Segmentation and Soft Attention
本章节主要介绍分割模型与注意力模型
Segmentation
分割模型其实也会分为两种,一种是只进行分割,将不同类别以像素级分别表示,另一种全分割就是在分割的基础上对每个物体进行分类,其中还要比较复杂的是将某一同类别物体但是不同个体进行分割,下面看一下例子:
首先,可以想到的是滑窗处理,将每一个窗口分别计算类别,然后输出,但是这样计算会很复杂:
既然滑窗这么复杂,我们可以直接使用卷积神经网络对物体进行鉴别,我们可以直接进行不缩小图片的操作,原尺度卷积并不加入池化层,可是这样计算量会非常复杂:
或者先进性卷积得到深层特征,最后使用一层上采样或反卷积层,得到原图大小,再对标签进行一一对应分类,可是这样会导致分割结果欠佳(FCN模型):
在下图中,FCN模型集合了在后几次池化之前的特征,以达到最大化得到原图低维特征但位置准确的细节:
这里讲一下反池化:
可以看到上图中一个是临近池化与定位池化,都是反池化的方式。
这里再讲一下反卷积,先从卷积开始,正常的卷积为下图所示:
那么反卷积是不是也可以理解成将卷积反过来,输入的一个数值对应的输出多个数值:
这里也有几个动图展示不同的反卷积:



说完反卷积,再来看一看一个比较成熟的模型:U-net,这个模型对医学图像处理的很好,因为呀真正实现了点对点操作,并且集合了不同的尺度:
Soft Attention
注意力模型是最近出来的一种类似于显著性检测的模型,意义在于利用近似循环神经网络对视频或图片找出接下来的注视点的模型。
大致与之前RNN不同点在于,他的模型在后续的预测时不止输入隐藏层参数与前项预测参数,还要有图片的特征参数,相当于每次预测过程中都有原图作为参考。
因为本人没有太关注过NLP,RNN与LSTM的东西,所以不是太了解,以后有时间再来谈。
小结
讲解分割模型与反卷积以及注意力模型。
资料来源:
- 斯坦福CS231n李飞飞计算机视觉视频课程:https://study.163.com/course/courseMain.htm?courseId=1003223001
- CS231n官方笔记授权翻译总集篇:https://zhuanlan.zhihu.com/p/21930884
- CS231n官方PPT:http://vision.stanford.edu/teaching/cs231n/syllabus.html
- 反卷积大致介绍:https://github.com/vdumoulin/conv_arithmetic