[论文快读] FCN (2014）

最新推荐文章于 2025-06-18 00:40:08 发布

原创最新推荐文章于 2025-06-18 00:40:08 发布 · 969 阅读

0 ·

CC 4.0 BY-SA版权

论文阅读专栏收录该内容

23 篇文章

订阅专栏

本文深入解析了FCN网络，一种用于语义分割的全卷积网络。介绍了FCN的设计理念，包括密集预测权衡、网络上采样及多层组合。文章详细说明了如何将分类网络转换为FCN，通过去除全联接层实现任意尺寸输入，以及采用deconvolution进行上采样。此外，还提出了deepjet方法，通过跨层连接提升模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

标题：Fully Convolutional Networks for Semantic Segmentation
作者：Jonathan Long, Evan Shelhamer, Trevor Darrell
地址：https://arxiv.org/abs/1411.4038
摘要：
abs
参考代码：https://github.com/pochih/FCN-pytorch/issues

FCN的思想在LeNet之前就提出过，但是对FCN进行以像素级预测（pixelwise prediction）和有监督预训练（fine-tuning）进行端到端的训练则是本文首创。该思想在后续的OverFeat等架构里面被反复用到，所以有必要读一下原文。

本文的工作包括四部分：FCN design, dense prediction tradeoffs, in-network upsampling和multilayer combinations。

FCN网络的仅有卷积层、池化或者激活函数层组成（文中记作 $f_{ks}(x_{ij})$ ）。其loss函数的形式决定了任务（如分割）。分割任务中，需要对feature map的每个像素分别计算loss，求和之后作为总的loss。这样，对于总的loss执行SGD等价于对每个小的loss分别执行SGD。

对分类网络执行fine-tuning的操作包括把全联接层改成若干个1*1的卷积（如图）
在这里插入图片描述
没有了全联接层，也就意味着input不再需要warp和crop成特定size，任意大小的输入都能获得一个稍小的“hot map”（不一样大是因为池化的过程产生了降采样）。后续的任务是把该hot map映射到原图size。实验显示，AlexNet的finetuning效果优于GoogLeNet。

文中介绍了一种升采样方法——shift-and-stitch。该方法在OverFeat中提到过，这两篇文章说的挺明白的：https://blog.youkuaiyun.com/qq_35732097/article/details/79027095 的3.3、3.4节和 https://www.jianshu.com/p/e534e2be5d7d 介绍地挺明白的，这里不再赘述。值得一提的是，琢磨了半天shift-and-stitch，结果最后作者说这个方法的效果不如解卷积（deconvolution）的双线性插值法效果好，“所以我们没有用它”（||-_-）

虽然deconvolution已经足够好了，但是作者又憋了一个大招——deep jet。

deep jet的key idea是跨层连接，这和ResNet中的shortcut倒是有异曲同工之妙。由于整个网络的低层所包含的信息比高层丰富，所以把低层的池化输出和高的deconvolution连接起来，把原来的线状结构组成DAG（有向无环图）状结构，即可得到性能更加优异的模型。
在这里插入图片描述

# FCN16s
def forward(self, x):
    output = self.pretrained_net(x) #包含了5个池化层的输出
    x5 = output['x5']  # size=(N, 512, x.H/32, x.W/32)
    x4 = output['x4']  # size=(N, 512, x.H/16, x.W/16)

    score = self.relu(self.deconv1(x5))               # size=(N, 512, x.H/16, x.W/16)
    score = self.bn1(score + x4)                      # element-wise add, size=(N, 512, x.H/16, x.W/16)
    score = self.bn2(self.relu(self.deconv2(score)))  # size=(N, 256, x.H/8, x.W/8)
    score = self.bn3(self.relu(self.deconv3(score)))  # size=(N, 128, x.H/4, x.W/4)
    score = self.bn4(self.relu(self.deconv4(score)))  # size=(N, 64, x.H/2, x.W/2)
    score = self.bn5(self.relu(self.deconv5(score)))  # size=(N, 32, x.H, x.W)
    score = self.classifier(score)                    # size=(N, n_class, x.H/1, x.W/1)

    return score  # size=(N, n_class, x.H/1, x.W/1)