四、经典网络2（AlexNet）

最新推荐文章于 2024-10-31 11:36:19 发布

满满myno

最新推荐文章于 2024-10-31 11:36:19 发布

阅读量701

点赞数 3

分类专栏：深度学习(上) 文章标签：网络计算机视觉 cnn 深度学习神经网络

本文链接：https://blog.youkuaiyun.com/weixin_53832681/article/details/124481552

版权

模型结构

模型解读

conv1 阶段 DFD（data flow diagram）：

第一层输入数据为原始的 227*227*3 的图像，这个图像被 11*11*3 的卷积核进行卷积运算，卷积核对原始图像的每次卷积都生成一个新的像素。卷积核沿原始图像的 x 轴方向和 y 轴方向两个方向移动，移动的步长是 4 个像素。因此，卷积核在移动的过程中会生成(227-11)/4+1=55个像素(227 个像素减去 11，正好是 54，即生成 54 个像素，再加上被减去的 11 也对应生成一个像素)，行和列的 55*55 个像素形成对原始图像卷积之后的像素层。共有 96 个卷积核，会生成 55*55*96 个卷积后的像素层。96 个卷积核分成 2 组，每组 48 个卷积核。对应生成 2 组55*55*48 的卷积后的像素层数据。这些像素层经过 relu1 单元的处理，生成激活像素层，尺寸仍为 2 组 55*55*48 的像素层数据。这些像素层经过 pool 运算(池化运算)的处理，池化运算的尺度为 3*3，运算的步长为 2，则池化后图像的尺寸为(55-3)/2+1=27。即池化后像素的规模为 27*27*96；然后经过归一化处理，归一化运算的尺度为 5*5；第一卷积层运算结束后形成的像素层的规模为 27*27*96。分别对应 96 个卷积核所运算形成。这 96 层像素层分为 2 组,每组 48 个像素层，每组在一个独立的 GPU 上进行运算。反向传播时，每个卷积核对应一个偏差值。即第一层的 96 个卷积核对应上层输入的 96 个偏差值。

conv2 阶段 DFD（data flow diagram）：

第二层输入数据为第一层输出的 27*27*96 的像素层，为便于后续处理，每幅像素层的左右两边和上下两边都要填充 2 个像素；27*27*96 的像素数据分成 27*27*48 的两组像素数据，两组数据分别再两个不同的 GPU 中进行运算。每组像素数据被 5*5*48 的卷积核进行卷积运算，卷积核对每组数据的每次卷积都生成一个新的像素。卷积核沿原始图像的 x 轴方向和 y 轴方向两个方向移动，移动的步长是1个像素。因此，卷积核在移动的过程中会生成 (27-5+2*2)/1+1=27 个像素。27 个像素减去 5，正好是 22，在加上上下、左右各填充的 2 个像素，即生成 26 个像素，再加上被减去的 5 也对应生成一个像素)，行和列的 27*27 个像素形成对原始图像卷积之后的像素层。共有 256 个 5*5*48 卷积核；这 256 个卷积核分成两组，每组针对一个 GPU 中的 27*27*48 的像素进行卷积运算。会生成两组 27*27*128 个卷积后的像素层。这些像素层经过 relu2 单元的处理，生成激活像素层，尺寸仍为两组 27*27*128 的像素层。

这些像素层经过 pool 运算(池化运算)的处理，池化运算的尺度为 3*3，运算的步长为 2，则池化后图像的尺寸为(57-3)/2+1=13。即池化后像素的规模为 2 组 13*13*128 的像素层；然后经过归一化处理，归一化运算的尺度为 5*5；第二卷积层运算结束后形成的像素层的规模为2 组 13*13*128 的像素层。分别对应 2 组 128 个卷积核所运算形成。每组在一个 GPU 上进行运算。即共 256 个卷积核，共 2 个 GPU 进行运算。

反向传播时，每个卷积核对应一个偏差值。即第一层的 96 个卷积核对应上层输入的 256个偏差值。