AlexNet论文阅读

AlexNet是深度学习领域的里程碑,其成功在于使用ReLU激活函数解决了梯度消失问题,应用Dropout防止过拟合,以及数据扩充增加模型泛化能力。该网络包含五个卷积层,三个全连接层,并在ImageNet数据集上取得了显著优于以往的性能。此外,高效GPU实现加速了训练过程。
AlexNet论文阅读


ImageNet Classification with Deep Convolutional Neural Networks

单词
不重要的

high-resolution 高分辨率的

fully segmented images 完全分割的图像

compensate for 补偿

重要的

better than the previous state-of-the-art 是最先进的模型

convolutional neural network 卷积神经网络

five convolutional layer 五个卷积层

The neural network, which has 60 million parameters and 650,000 neurons, con- sists of five convolutional layers, some of which are followed by max-pooling layers, and three fully connected layers with a final 1000-way softmax.

该神经网络有6000万个参数和65万个神经元,由五个卷积层组成,其中一些层后面是最大池化层,还有三个完全连接层,最后是1000路softmax。

regularization method 正则化方法

prior knowledge 先验知识

Local response normalization 局部响应规范化

not overlap 不重叠

epoch 轮数

pixel 像素

参考资料(61条消息) 基于卷积的图像分类识别(一):AlexNet_图灵猫-Arwin的博客-优快云博客

摘要

We trained a large, deep convolutional neural network to classify the 1.2 million high-resolution images in the ImageNet LSVRC-2010 contest into the 1000 different classes. On the test data, we achieved top-1 and top-5 error rates of 37.5% and 17.0%, respectively, which is considerably better than the previous state-of-the-art. The neural network,which has 60 million parameters and 650,000 neurons, consists of five convolutional layers, some of which are followed by max-pooling layers, and three fully connected layers with a final 1000-way softmax. To make training faster, we used nonsaturating neurons and a very efficient GPU implementation of the convolution operation. To reduce overfitting in the fully connected layers we employed a recently developed regularization method called “dropout” that proved to be very effective. We also entered a variant of this model in the ILSVRC-2012 competition and achieved a winning top-5 test error rate of 15.3%, compared to 26.2% achieved by the second-best entry。

我们训练了一个大型深度卷积神经网络,将ImageNet LSVRC-2010比赛中的120万幅高分辨率图
像分类为1000个不同的类别。在测试数据上,我们分别获得了37.5%和17.0%的前1和前5错误
率,这比以前的最先进技术要好得多。该神经网络有6000万个参数和65万个神经元,由五个卷积
层组成,其中一些层后面是最大池化层,还有三个完全连接层,最后是1000路softmax。为了使
训练更快,我们使用了非饱和神经元和非常高效的GPU实现的卷积运算。为了减少完全连接层中
的过拟合,我们采用了一种最近开发的称为“dropout”的正则化方法,该方法被证明是非常有效
的。我们还在ILSVRC-2012比赛中加入了该模型的变体,并获得了15.3%的前五名测试错误率,
而第二名最佳参赛者的错误率为26.2%。
AlexNet理论

AlexNet之所以能够成功,跟这个模型设计的特点有关,主要有:

  • 使用了非线性激活函数:ReLU
  • 随机失活:Dropout
  • 数据扩充:Data augmentation
  • 其他:多GPU实现,LRN归一化层的使用
1. 激活函数:ReLU

传统的神经网络普遍使用Sigmoid或者tanh等非线性函数作为激励函数,然而它们容易出现梯度弥散或梯度饱和的情况。以Sigmoid函数为例,如下图所示,当输入的值非常大或者非常小的时候,值域的变化范围非常小,使得这些神经元的梯度值接近于0(梯度饱和现象)。由于神经网络的计算本质上是矩阵的连乘,一些近乎于0的值在连乘计算中会越来越小,导致网络训练中梯度更新的弥散现象,即梯度消失。

但是relu不存在这个缺陷,它在第一象限近似函数:y=x,不会出现值域变化小的问题。relu函数直到现在也是学术界和工业界公认的最好用的激活函数之一,在各个不同领域不同模型下的使用非常之多。

ae8ed6b7feb74a75bb8435ba640c35b5

其实,对于relu函数的设计思想我们可以寻求一个生物学解释,大家回忆一下初中的一个生物实验:生物学家们用电流刺激青蛙的大腿肌肉,当电流强度不够强时,肌肉组织不反应(即relu函数在x<0时,输出恒等于0的表现);当电流强度到达一定的阈值,肌肉组织开始抽搐,且电流强度越大,抽搐反应越强(即relu函数在x>0时,输出为y=x的表现)。本质上,这是一种非线性的体现

2. 随机失活:Dropout

引入Dropout主要是为了防止网络在训练过程中出现的过拟合现象。过拟合现象出现的原因有两方面:1.数据集太小。 2.模型太复杂。

当数据太小时,模型就不会去学习数据中的相关性,不会尝试去理解数据,提取特征。最便捷的一种方式是把数据集中的所有数据强行记忆下来,这就叫过拟合。可以想象,一个过拟合的模型是没有举一反三的能力的,即对数据的泛化能力太差,只能对训练数据集中的数据做很好的处理,一旦换一批新的类似数据,模型的处理能力会很差。
那如何解决呢?两个方案:1.提升数据集容量,让模型难以记忆所有的数据,这时候它就会尝试学习数据,理解数据了,因为相较于记忆所有数据,这是种更容易的解决方案。 2.把模型变的简单些,我们想:之所以高三的学生会选择背答案,其实是因为高三的学生比较聪明,如果换个小学生来,他八成是想不到背答案的。因此模型也是一样的,模型会选择记忆数据一方面是因为模型太复杂,他有能力去记忆所有数据。当我们降低模型的复杂度时,他就不会出现过拟合现象。总之,过拟合的本质是数据集与模型在复杂度上不匹配。

在神经网络中Dropout是通过降低模型复杂度来防止过拟合现象的,对于某一层的神经元,通过一定的概率将某些神经元的计算结果乘0,这个神经元就不参与前向和后向传播,就如同在网络中被删除了一样,同时保持输入层与输出层神经元的个数不变,然后按照神经网络的学习方法进行参数更新。在下一次迭代中,又重新随机删除一些神经元(置为0),直至训练结束。

1d3381beb8bb4ca88d8abce5ba129261
3. 数据扩充:Data augmentation

由于神经网络算法是基于数据驱动的,因此,有一种观点认为神经网络是靠数据喂出来的,如果能够增加训练数据,提供海量数据进行训练,则能够有效提升算法的准确率,因为这样可以避免过拟合,从而可以进一步增大、加深网络结构。而当训练数据有限时,可以通过一些变换从已有的训练数据集中生成一些新的数据,以快速地扩充训练数据。
其中,最简单、通用的图像数据变形的方式:水平翻转图像,从原始图像中随机裁剪、平移变换,颜色、光照变换,如下图所示:
09055aa8b9f445509a85f21be77ff14b

数据增广确实是提升模型的有效手段,而且最近的增广方式也不仅限于这种随机裁剪,也可以使用生成对抗网络进行图像生成来达到图像增广的目的。

代码复现

train_sample.py

即训练模型

import os 
import sys
import json 
import torch
import torch.nn as nn
from torchvision import transforms, datasets 
import torch.optim as optim 
from tqdm import tqdm  ##进度条可视化
from classic_models.alexnet import AlexNet ##在claaic_models下面的alexnet要导入进来,否则无法调用
#from classic_models.googlenet_v1 import  GoogLeNet
def main():
    # 判断可用设备
    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") ##python三元运算 如果true就输出cuda:0,false就输出cpu
    print("using {} device.".format(device))

    # 数据集路径
    data_path = "D://BaiduNetdiskDownload//flower"
    assert os.path.exists(data_path), "{} path does not exist.".format(data_path) 

    # 数据预处理与增强
    """ 
    ToTensor()能够把灰度范围从0-255变换到0-1之间的张量.
    transform.Normalize()则把0-1变换到(-1,1). 具体地说, 对每个通道而言, Normalize执行以下操作: image=(image-mean)/std
    其中mean和std分别通过(0.5,0.5,0.5)和(0.5,0.5,0.5)进行指定。原来的0-1最小值0则变成(0-0.5)/0.5=-1; 而最大值1则变成(1-0.5)/0.5=1. 
    也就是一个均值为0, 方差为1的正态分布. 这样的数据输入格式可以使神经网络更快收敛。
    """
    data_transform = {
   
   
        "train": transforms.Compose([transforms.Resize(224), #把图片统一处理成224大小 因为AlexNet有全连接层的存在,所以输入的图片得固定尺寸
                                     transforms.CenterCrop(224),##数据扩充,中心裁剪
                                     transforms.ToTensor(),
                                     transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))]), ##因为是彩色图片,分别对应rgb三个颜色通道,所以是三维的

    ##val是验证集
        "val": transforms.Compose([transforms.Resize((224, 224)),  # val不需要任何数据增强
                                   transforms.ToTensor(),
                                   transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值