AlexNet

最新推荐文章于 2024-10-24 21:00:00 发布

原创最新推荐文章于 2024-10-24 21:00:00 发布 · 516 阅读

1 ·

CC 4.0 BY-SA版权

神经网络专栏收录该内容

1 篇文章

订阅专栏

1.简介

AlexNet是由Alex Krizhevsky、Ilya Sutskever、Geoffrey E. Hinton设计提出，在ImageNet LSVRC-2010竞赛中用于将120万高分辨图片分成1000种不同的类型。测试集上取得了top-1的37.5%和top-5的17.0%错误率的成绩。该神经网络拥有6千万个参数和65万个神经元，包括5个卷积层，即池化层、3个带有1千步softmax的全连接层。为了加速训练，他们团队使用了非饱和神经元及高效的GPU来实现卷积计算，使用了dropout方法以减少全连接层过拟合现象。另外，在ILSVRC-2012竞赛中，他们使用了该模型的变种，获得了top-5错误率为15.3%的成绩，对比第二名则达到了26.2%。

2.数据集

ImageNet是一个包括超过2万2千个类目的1500万手工标注高分辨率图片的数据集。这些图片来自于互联网，应用亚马逊Turk众包工具标注而成。起始于2010年，作为Pascal Visual Object Challenge的一部分,称为ImageNet Large-Scale Visual Recognition Challenge(ILSVRC)的年度竞赛。ILSVRC 使用ImageNet的子集，1000个类目下各有1000张图片。总之约有120万训练图片及5万验证图片，15万测试图片。

3.架构

总体结构包括8个学习层：5个卷积层和3个全连接层，如下图。最后的全连接层输出给一个1000步softmax，产生1000个类标签的分布。第二、四、五卷积核连接于映射在之前的运行于同一个GPU的核。第三卷积核连接投射于第二层的所有的核。全连接层的神经元连接于前一层的所有神经元。第一、二卷积层后面是Response-normalization层。两个 Response-normalization层之后，也就是第五层，是最大池化层。使用ReLU non-linearity 作为每个卷积层及全连接层的输出。第一卷积层拥有96个11×11×3核，以步长为4像素扫描224×224×3的输入图片。第二卷积层使用256个5 × 5 × 48的卷积核，对第一层的输出作为本层输入进行扫描滤过。第三、四、五卷积层顺序相连，没有任何干预性池化及标准化。第三卷积层有384个3 × 3 ×256 卷积核，连接于第二层的输出。第四卷积层则有384个3 × 3 × 192卷积核，第五卷积层则为 256个3 × 3 × 192的核。每个全连接层有 4096个神经元。
在这里插入图片描述