本文是一篇
人工智能
前沿算法课设小论文,主要内容是对于经典模型AlexNet
和ResNet
的比较。整体上比较完整,由于是从文档上搬上来,所以在排版上有一些不规范,需要完整论文或者参考文献
私信可免费提供。
文章目录
摘要
卷积神经网络(Convolutional Neural Network,CNN)最初是为解决图像识别等问题设计的,当然其现在的应用不仅限于图像和视频。经典的卷积网络LeNet5 诞生于1994年是最早的深层卷积神经网络之一,并且推动了深度学习的发展。在接下来的领域发展中,出现了更多的经典卷积神经网络结构,AlexNet、VGGNet、Google Inception Net和ResNet,这4种网络依照出现的先后顺序排列,深度和复杂度也依次递进。
本文选择个人认为最具代表性的AlexNet和ResNet进行着重介绍。AlexNet可以说是神经网络在低谷期后的第一次发声,是现代深度CNN的奠基之作,它的AlexNet中包含了几个比较新的技术点,例如成功使用ReLU作为CNN的激活函数,Dropout防止过拟合,使用重叠的最大池化代替平均池化,提出了LRN层,利用GPU强大的并行计算能力,数据增强等等新的技术点。
ResNet在ILSVRC 2015比赛中获得了冠军,取得3.57%的top-5错误率,准确率提高非常显著。ResNet的提出意义是层数超过了百层同时引入残差单元来解决退化问题,绝对是深度学习发展历程上里程碑式的事件。
1第一章 CNN经典模型-AlexNet
1.1 AlexNet背景介绍
AlexNet是现代深度CNN的奠基之作。2012年,Hinton的学生Alex Krizhevsky提出了深度卷积神经网络模型AlexNet,它可以算是LeNet的一种更深更宽的版本。AlexNet中包含了几个比较新的技术点,也首次在CNN中成功应用了ReLU、Dropout和LRN等Trick。同时AlexNet也使用了GPU进行运算加速,作者开源了他们在GPU上训练卷积神经网络的CUDA代码。
AlexNet包含了6亿3000万个连接,6000万个参数和65万个神经元,拥有5个卷积层,其中3个卷积层后面连接了最大池化层,最后还有3个全连接层。AlexNet以显著的优势赢得了竞争激烈的ILSVRC 2012比赛,top-5的错误率降低至了16.4%,相比第二名的成绩26.2%错误率有了巨大的提升。
AlexNet可以说是神经网络在低谷期后的第一次发声,确立了深度学习(深度卷积网络)在计算机视觉的统治地位,同时也推动了深度学习在语音识别、自然语言处理、强化学习等领域的拓展。
1.2AlexNet的模型结构
1.2.1总体概述
- 考虑后面的全连接层,AlexNet为8层结构,其中前5层为卷积层,后面3层为全连接层;学习的参数有6千万个,神经元个数650000个。
- lexNet在两个GPU上运算。
- AlexNet在第2,4,5层均是前一层自己GPU内连接,第3层是与前面两层全连接,全连接是2个GPU全连接。
- ReLU在每个卷积层以及全连接层后。
1.2.2各层描述
1 第一层结构
输入的原始图像是224×224×3的图像,为了后续处理进行padding填充为227×227×3的图像。这个图像被11×11×3的卷积核进行卷积操作(其中3表示深度或者说通道数)。卷积核的步长为4,朝着横向和纵向两个方向进行卷积。因此生成的像素为[(224+(1+2)-11)/4+1]=55,由于有96个卷积核,所以会形成55×55×96个像素层,系统采用的是双GPU处理,因此分为2组数据:55×55×48。
重叠pool池化层:这些像素层还需要经过pool运算(池化运算)的处理,池化运算的尺度由预先设定为33,运算的步长为2,则池化后的图像的尺寸为:(55-3)/2+1=27。即经过池化处理过的规模为2727*96。
局部响应归一化层(LRN):最后经过局部响应归一化处理,归一化运算的尺度为55;第一层卷积层结束后形成的图像层的规模为2727*96.分别由96个卷积核对应生成,这96层数据氛围2组,每组48个像素层,每组在独立的GPU下运算。
2第二层结构
输入数据为第一层输出的272796的像素层(为方便后续处理,这对每幅像素层进行像素填充),分为2组像素数据,两组像素数据分别在两个不同的GPU中进行运算。每组像素数据被5