CNN
通常CNN网络在卷积层之后会接上若干个全连接层,将卷积层产生的特征图(feature map)映射成一个固定长度的特征向量。
FCN 对图像进行像素级的分类,从而解决了语义级别的图像分割(semantic segmentation)问题,与经典的CNN 在卷积层之后使用全连接层得到固定长度的特征向量,进行分类(全连接层+softmax输出)不同。FCN可以接收任意尺寸的输入图像,采用反卷积层对最后一个卷积层的feature map 进行上采样,使它恢复到输入图像相同尺寸,从而可以对每个像素都产生了一个预测,同时保留了原始输入图像的中的空间信息,最后在上采样的特征图上进行逐像素分类。
最后逐个像素计算softmax分类的损失函数,相当于每个像素对应一个训练样本:
简单的来说,FCN与CNN 的区域在把与CNN 最后的全连接层换成了卷积层,输出的是一张已经Label 好的图片。
CNN 的强大之处在于它的多层结构能自动学习特征,并且可以学习到多个层次的特征:较浅的卷积层感知域较小,学习到一些局部区域的特征;