[计算机视觉]-经典网络inception v1、v2、v3、v4核心工作详解及总结

最新推荐文章于 2024-05-13 14:17:34 发布

原创

最新推荐文章于 2024-05-13 14:17:34 发布 · 4.9k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#网络 #卷积 #算法 #python #计算机视觉

资源

inception v1
Going deeper with convolutions：https://arxiv.org/abs/1409.4842

BN算法
Batch Normalization：https://arxiv.org/pdf/1502.03167.pdf

inception v2/v3
Rethinking the Inception Architecture for Computer Vision：https://arxiv.org/pdf/1512.00567.pdf

inception v4/resnet
Inception-v4, Inception-ResNet： https://arxiv.org/pdf/1602.07261.pdf

1. Inception-v1

在这篇文章之前，卷积神经网络的性能提高都是依赖于提高网络的深度和宽度，而这篇论文是从网络结构上入手，改变了网络结构。

该论文的核心贡献：提出了inception的卷积网络结构。

1.1 动机

提高网络最简单粗暴的方法就是提高网络的深度和宽度，即增加隐层和以及各层神经元数目。但这种简单粗暴的方法存在一些问题：

1.会导致更大的参数空间，更容易过拟合，特别是在样本标记数目有限的情况下
2.需要更多的计算资源，网络越深，梯度容易消失，优化困难（这时还没有提出BN时，网络的优化极其困难）

基于此，我们的目标就是，提高网络计算资源的利用率，在计算量不变的情况下，提高网络的宽度和深度。

作者认为，解决这种困难的方法就是，把全连接改成稀疏连接，卷积层也是稀疏连接，但是不对称的稀疏数据数值计算效率低下，因为硬件全是针对密集矩阵优化的，所以，我们要找到卷积网络可以近似的最优局部稀疏结构，并且该结构下可以用现有的密度矩阵计算硬件实现，产生的结果就是Inception。

1.2 inception-v1 模块细节

在这里插入图片描述
首先看第一个结构，有四个通道，有11、33、55卷积核及33的max pooling，该结构有几个特点：

并行结构增加了网络的宽度，即每层神经元的数目
采用大小不同的卷积核，意味着感受野的大小不同，就可以得到不同尺度的特征。
类似与FPN结构，最后融合不同尺度的信息，可以得到更好的图像表征。

如上图所示，两只狗在图中的占比是不同的，对于左图，用55这样的大卷积核可能会更好的捕捉特征;对于右图，用11或3*3的卷积可能会更好的捕捉特征，而采用inception 相当与对不同卷积核捕捉到的特征做了融合。

但是这个结构有个缺点，5*5的卷积核的计算量太大。
那么作者想到了第二

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。