自学网络结构（二）：Learning Transferable Architectures for Scalable Image Recognition

最新推荐文章于 2025-01-21 15:38:21 发布

原创

最新推荐文章于 2025-01-21 15:38:21 发布 · 5.7k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习与计算机视觉

本文介绍了Google Brain团队的研究成果，通过神经网络自动学习获得图像识别的可转移架构NASNet。NASNet在CIFAR-10和ImageNet数据集上达到了或超过人类设计架构的性能，同时训练需求更低。它借鉴了NAS的思想，但通过Proximal Policy Optimization (PPO)改进了控制器更新，并使用卷积单元进行网络堆叠，减少了搜索空间的复杂性。

论文：Learning Transferable Architectures for Scalable Image Recognition
链接：https://arxiv.org/abs/1707.07012

Google Brain的作品，关于用神经网络学习另一个神经网络的结构。我们知道现在图像分类、检测算法的优劣很大一部分取决于网络结构的设计，最近今年比较优秀的分类网络结构比如VGG，ResNet，DenseNet等在网络结构的设计上下了不少功夫。Google的这支团队认为人为设计的结构不一定是最佳的，因此希望能通过一个神经网络来按照一定策略学习得到最佳的网络结构。在这里要先提到另一篇论文，也就是ICLR2017的Neural architecture search with reinforcement learning（暂时称为NAS），一作是同一个人，那篇文章通过用强化学习在一个search space中搜索最优的网络结构，可以简单看下面的Figure1，或者参看博客：
自学网络结构（一）：Neural Architecture Search With Reinforcement Learning。那篇文章中实验都是在CIFAR-10上做的，所以那种搜索方式可以在能接受的时间范围内达到目的，但是如果想要在ImageNet数据集应用就不大行，因此就有了这篇文章，也就是设计一个合适的search space，使得在CIFAR-10上得到的最好的网络结构可以方便地迁移到ImageNet这样的图像尺寸大且数量也多的数据集上，因此这篇文章可以看做的ICLR2017那篇文章的升级版（搜索速度比之前快了7倍左右）。

总的来看这篇文章不仅借鉴了NAS（Neural Architecture Search）的训练结构思路（Figure1），只不过在更新controller参数的时候采用 Proximal Policy Optimization (PPO)，而不是原先的policy geadient method；同时借鉴了目前优秀网络结构（ResNet，GoogleNet）的重复堆叠思想，后面会提到堆叠的基本单元是convolutional cell，这是和原来的NAS很不一样的地方。

那么这个自动学习得到的模型效果怎么样呢？总结起来就是一句话：The resulting architectures approach or exceed state-of-the-art performance in both CIFAR-10 and ImageNet datasets with less computational demand than humandesigned architectures. 同时普遍看来，通过