Learning Transferable Architectures for Scalable Image Recognition论文简述

最新推荐文章于 2025-01-21 15:38:21 发布

原创最新推荐文章于 2025-01-21 15:38:21 发布 · 3.2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#p2p #深度学习 #cnn

本文介绍了对Neural Architecture Search with Reinforcement Learning的优化，采用Proximal Policy Optimization (PPO)更新控制器参数，并针对运算符进行搜索。网络结构基于ResNet和GoogleNet的堆叠思想，使用卷积单元（Convolution Cell）并分为Normal Cell和Reduction Cell。每个Cell由多个block组成，每个block包含多个操作选择步骤，最终通过实验验证了在较少参数下保持高准确性的特点。

本文是谷歌在2018年提出的一篇神经网络结构最优搜索的论文

本文的核心思想是基于一篇Neural Architecture Search With Reinforcement Learning，的优化和改进。

我们知道在深度学习任务比如图像识别，图像分类中模型结构是非常关键的，比如VGG，ResNet，DenseNet等在网络结构的设计。但是，这种人为设计的结构就一定好么？不一定，因此希望能通过一个神经网络来按照一定策略学习得到最佳的网络结构。

首先，先简单说一说Neural Architecture Search With Reinforcement Learning这篇论文。

这篇文论的话，现在看来比较粗暴，用强化学习（reinforcement learning）来学习一个最优的网络结构，简单来说就是通过一个controller在搜索空间（search space）中得到一个网络结构（child network），然后用这个网络结构在数据集上训练得到准确率，再将这个准确率回传给controller，controller继续优化得到另一个网络结构，如此反复进行直到得到最佳的结果。

很明显核心就是如何通过这个controller得到我们的网络结构，以及如何训练我们的controller。首先，如何得到我们的子网络结构，controller采用的就是RNN结构。那么为什么是RNN结构呢?因为作者观察到，神经网络的结构和连通性通常可以用一串长度可变的字符串来表示，因此可以用一个循环神经网络来生成这样的字符串。也就是如图这样

那么如何训练呢？这里就用到了强化学习的方法。我每次选出一个子网络，得到子网络精度，这个精度就是我们的reward，而搜索空间就是我们的action空间，controller就是我们的agent，如此便可以训练我们模型了。

接下来进入正题。

那么本篇论文，就是基于这样的一个方法的改进。

首先，在更新controller参数的时候采用 Proximal Policy Optimization (PPO)，而不是原先的policy geadient method；同时借鉴了目前优秀网络结构（ResNet，GoogleNet）的重复堆叠思想，与上篇论文不同，这里是针对于算子(op)进行搜索的，之后会详细讲到。

因此本文的结构为：

通过借鉴ResNet和GooleNet中网络结构堆叠的思想，这篇论文采用的的最小堆叠单位就是convolution cell，而convlolution cell主要包含两种：第一种是不改变输入feature map的大小的卷积，也就是下图中的Normal Cell；第二种是将输入feature map的长宽各减少为原来的一半的卷积，也就是下图中的Reduction Cell。整体的网络结构就是Normal Cell与Reduction Cell相互穿插，因此当网络结构定义如图，那么本文的controller就用来预测下图中的Normal Cell和Reduction Cell。