[论文阅读] Going Deeper with Convolutions

本文探讨了深度学习中网络结构优化的策略,包括使用稀疏连接、1x1卷积进行维度缩减、多尺度特征提取以及多模型集成等方法,以解决深层网络的过拟合和计算需求高的问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 一般来说更深的网络具有更好效果,更深的网络也面临两个问题。
    • 更深的网络拥有更多的参数,更容易过拟合。
    • 更深的网络对计算的要求也更高。
  • 针对上述问题的一个解决方法就是使用稀疏连接(convolutional layer),而不是dense connection。
  • 此外,同一类的物体在不同图片中的大小差距也比较大,如下图所示,从左到右图像需要的kernel size依次递减。
    在这里插入图片描述
  • 为了解决这个问题,作者创新性的提出了不仅仅more deeper而且可以让网络更wider。也就是最原始的Inception Module,如下图所示。
    在这里插入图片描述
  • 但是上面结构有一个致命的问题就是channel的个数会爆炸式增长,这就限制了我们网络结构不能太深,因为我们在设计网络的时候总要在channel的个数和网络的深度之间平衡。,为了解决该问题,作者使用了1∗11*111的卷积来做dimension reduction。⚠️1∗11*111的卷积也跟的有ReLU,这样可以提高整个模型的非线性。
    在这里插入图片描述
  • 这里其实还有一个问题就是为什么不统一在filter concatenation后跟一个1x1的卷积,而是在module内的每个branch跟了一个1x1的卷积,个人感觉是因为这样更适合multi-scale的初衷。通过这样可以使得每个scale可以提取到适合自己的特征。
  • 作者还在开始的两个convolutional layer跟了LRN Block(Local Response Normalization)。他是Alex net中使用的归一化方法,定义如下
    bx,yi=ax,yi/(k+∑j=max(0,i−n/2)min(N−1,i+n/2)(ax,yj)2)βb^i_{x,y} = a^i_{x,y} / (k + \sum_{j=max(0, i-n/2)}^{min(N-1, i+n/2)}(a^j_{x, y})^2)^\betabx,yi=ax,yi/(k+j=max(0,in/2)min(N1,i+n/2)(ax,yj)2)β其中N表示channel的个数,n表示adjacent的个数。x,y表示坐标。总的来说就是对每个位置的特征,计算他在相同位置先后多个特征下的归一化后的值。也是计算的特征之间的归一化。每个位置之间是独立的。
  • ensemble,作者使用了multi-crop,multi-modelensemble的方式来进一步改善测试集上的效果
    • multi-model, 作者用相同的网络结构,参数初始化方式训练来7个模型,他们之间的不同仅仅在于随机打乱来输入的顺序,以及sampleing的方法不同。
    • multi-crop,作者最多crop出来144个图像。首先将最短边放缩到256, 288,320和352。然后再提取square从left,center 或者是right(或者对称的top, center或者是right)。再然后将square的四个角,中间crop出224x224或者是将square resize到224x224。所以每幅图像crop得到图像的个数是436*2=144。
    • 最后ensemble的方式也是对得到的softmax probabilities计算平均值。
    • 效果如下表所示,我们可以看到通过test阶段的multi-scale,效果还是有显著提升的。
      在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值