语义分割的任务是基于像素点的密集预测任务,其目的是将输入图像的每个像素分配一个语义类别。
FCNs网络,以VGG16为backbone,去掉了最后的全连接层(fc6和fc7)转换为卷积层,以生成一个低分辨率的特征图,然后用双线性初始化的反卷积,并在上采样的每一个阶段采用skip-connection的方式融合(求和)VGG16中的低层信息(conv4、conv3)的更加粗糙但是分辨率更高的特征图进一步融合多尺度信息。如下图所示,FCN-8s 融合了不同粗糙度(conv3、conv4和fc7)的特征,利用编码器不同阶段不同分辨率的空间信息来细化分割结果。
跳跃结构(Skip Layer)这个结构的作用就在于优化结果,因为如果将全卷积之后的结果直接上采样得到的结果是很粗糙的,所以作者将不同池化层的结果进行上采样之后来优化输出。