Very Deep Convolutional Networks for Large-Scale Image Recognition

最新推荐文章于 2022-02-13 14:55:20 发布

weixin_30312659

最新推荐文章于 2022-02-13 14:55:20 发布

阅读量89

点赞数

CC 4.0 BY-SA版权

文章标签：人工智能

原文链接：http://www.cnblogs.com/jianyingzhou/p/3976737.html

本文深入探讨了深度卷积神经网络在大规模图像识别任务中的效能，通过实验验证了深度增加对准确性的影响。作者介绍了VGG网络的设计，包括19层的深度结构，以及其在ImageNet挑战赛中的表现，分别在分类和定位任务中获得第二和第一的位置。此外，文章还详细阐述了训练过程、网络架构细节、以及与Google模型的比较，强调了深度网络的重要性。

Very Deep Convolutional Networks for Large-Scale Image Recognition

Karen Simonyan, Andrew Zisserman

In this work we investigate the effect of the convolutional network depth on its accuracy in the large-scale image recognition setting. Our main contribution is a thorough evaluation of networks of increasing depth, which shows that a significant improvement on the prior-art configurations can be achieved by pushing the depth to 16–19 weight layers. These findings were the basis of our ImageNet Challenge 2014 submission, where our team secured the first and the second places in the localisation and classification tracks respectively.

看一下摘要，就差不多知道作者要讲解的是什么了,depth!!!!!!

Google的模型也是depth啊,所以shuicheng yan的slides里说他们的模型not deep enough！

文中介绍到，其模型有19层，16卷积外加3个fc，这个比起来google也还好，但是确实是deeper better啊。另外，在香港中文的naiyan wang也说了，deeper better啊。所以，明年的imagenet估计拼deeper吗？

训练过程，先训练比较少的层，然后多层的CNN在浅层基础上训练，即，现有的层参数作为初始化，而新加的层的参数随机初始化。在初始化过程中，作者也提到，是个很难的问题。另外，在卷积层，用的是3X3的，深层的也有1X1的卷积，特别提到了network in network，即每个节点都要再作一次非线性变换。

单机4GPU，训练模型，分类跑了第二，定位跑了第一，也是了得的啊。

值得一提，定位中，用过per class regression和single class regression(原文不知道怎么翻译)，当然pcr效果更好，第二种类型就是对所有1000类只训练一个regressor，没有类别的信息在其中，出来的信息是4-D维度的。第一种方式就是regressor出来的是1000×4-D维度的。感觉和overfeat很相似的，只是他就用了一个scale.同样，他们还用了overfeat中的合并方法，唉，这个我当时实现了，但是效果不好，看来还是没有理解到位，回头再看看。

同时，文中提到，对所有层做fine tuning比某几层好。

文中在test阶段，将所有fc层转换为conv层，这样有一个很大的好处就是图像可以是不同大小的了。具体转换办法可以见：http://nbviewer.ipython.org/github/bvlc/caffe/blob/master/examples/net_surgery.ipynb

整体感觉VGG还是比较接地气的，只是不放出来代码，有点遗憾。

整体吧，文章还没有理解完整，未完待续……

转载于:https://www.cnblogs.com/jianyingzhou/p/3976737.html