Alexnet 论文笔记

最新推荐文章于 2025-05-08 09:00:00 发布

2301_80416780

最新推荐文章于 2025-05-08 09:00:00 发布

阅读量456

点赞数 4

文章标签：论文阅读神经网络计算机视觉目标检测 cnn

本文链接：https://blog.youkuaiyun.com/2301_80416780/article/details/140542665

版权

摘要

神经网络模型：

1）大小：6千万参数，65万个神经元，5个卷积层，3个全连接层。

2）训练方法：

1.使用不饱和神经元和高效的GPU

2.使用“dropout”正则化减少过拟合

3）训练效果：

错误率：15.3%

介绍

前面的模型不足：训练的数据集小，模型的能力也不支持大规模数据，泛化能力弱，即使易训练的CNN训练成本也高。

解决措施：用了高度优化的GPU和更好的特征减少训练时间，特征也提高了性能。用了有效的技术防止过拟合。

数据集处理

对图像缩放至固定的256*256的分辨率，使用原始的RGB值。

整体架构

1）使用非饱和非线性ReLU函数来提高梯度下降速度。

AlexNet将sigmoid激活函数改为更简单的ReLU激活函数。⼀⽅⾯，ReLU激活函数的计算更简单，它不需要如sigmoid激活函数那般复杂的求幂运算。另⼀⽅⾯，当使⽤不同的参数初始化⽅法时，ReLU激活函数使训练模型更加容易。当sigmoid激活函数的输出⾮常接近于0或1时，这些区域的梯度⼏乎为0，因此反向传播⽆法继续更新⼀些模型参数。相反，ReLU激活函数在正区间的梯度总是1。因此，如果模型参数没有正确初始化，sigmoid函数可能在正区间内得到⼏乎为0的梯度，从而使模型⽆法得到有效的训练。

2）跨GPU并行化提高训练速度

3）应用局部相应归一化来提高泛化能力

4）层叠池化提高泛化能力

在AlexNet的第一层，卷积窗口的形状是11*11。由于大多数ImageNet 中的图像的宽和高比MNIST图像的多10倍以上，因此需要一个更大的卷积窗口来捕获目标。第二层的卷积窗口形状被缩减为5*5，然后是3*3。此外，在第一层，第二层和第五层之后，加入窗口形状为3*3，步幅为2 的最大池化层。最后⼀个卷积层后有两个全连接层，分别有4096个输出。这两个巨⼤的全连接层拥有将近1GB的模型参数。由于早期GPU显存有限，原版的AlexNet采⽤了双数据流设计，使得每个GPU只负责存储和计算模型的⼀半参数。