人工智能图像识别卷神经网络LeNet结构

一、LeNet架构

手写的数字识别

 

数据复杂度

居中和缩放

50000个训练数据10,000个测试数据图像大小28*2810类

 

总体来看,LeNet(LeNet-5)由两个部分组成 

·卷积编码器:由两个卷积层组成 

·全连接层密集块:由三个全连接层组成; 

每个卷积层使用5×5卷积核和一个sigmoid激活函数。

 

LeNet 结构,它保留了 LeNet 的核心思想,主要包含卷积层、池化层和全连接层:

01. 输入层

输入数据为灰度图像,尺寸设定为  28x28 ,这是为了适应常见的手写数字数据集(如 MNIST 数据集)的图像大小。这一层主要负责接收原始图像数据,将其传递到后续网络层进行处理。

02. 卷积层 1

卷积核数量:6

卷积核大小: 5x5 

填充方式:无填充

激活函数:ReLU

该卷积层使用 6 个  5x5  的卷积核,对输入图像进行卷积操作。在没有填充的情况下,卷积后的特征图尺寸会变小。计算公式为:输出特征图尺寸 = (输入尺寸 - 卷积核尺寸 + 1)。因此,经过这一层卷积后,输出特征图的尺寸为  (28 - 5 + 1) x (28 - 5 + 1) = 24x24 。ReLU 激活函数的作用是为网络引入非线性,其公式为  f(x) = max(0, x) ,它能够增强网络的表达能力,让网络学习到更复杂的特征。

03. 池化层 1

池化窗口大小: 2x2 

池化方式:最大池化

最大池化操作会在每个  2x2  的窗口内选取最大值作为输出。池化后的特征图尺寸会进一步减小,计算公式为:输出特征图尺寸 = 输入尺寸 / 池化窗口步长(这里步长等于池化窗口大小)。因此,经过这一层池化后,输出特征图的尺寸为  24 / 2 = 12x12 。池化的作用是减少数据量,降低计算复杂度,同时在一定程度上防止过拟合。

04. 卷积层 2

卷积核数量:16

卷积核大小: 5x5 

填充方式:无填充

激活函数:ReLU

这一层使用 16 个  5x5  的卷积核对上一层的输出进行卷积。同样不进行填充,卷积后的特征图尺寸为  (12 - 5 + 1) x (12 - 5 + 1) = 8x8 。经过 ReLU 激活函数处理后,输出新的特征图,继续提取图像中的复杂特征。

05. 池化层 2

池化窗口大小: 2x2 

池化方式:最大池化

再次进行最大池化操作,池化窗口大小为  2x2 。经过这一层池化后,输出特征图的尺寸为  8 / 2 = 4x4 。这进一步减少了数据量,突出了图像中的关键特征。

06. 全连接层 1

神经元数量:120

激活函数:ReLU

将池化层 2 的输出  4x4  的特征图展开为一维向量,其长度为  4 x 4 x 16 = 256 (16 是卷积层 2 的输出通道数)。然后将这个一维向量连接到具有 120 个神经元的全连接层。全连接层中的每个神经元与输入向量的所有元素都有连接。经过 ReLU 激活函数处理后,输出新的特征表示。

07. 全连接层 2

神经元数量:84

激活函数:ReLU

这一层接收全连接层 1 的输出,并进一步进行特征变换。全连接层 2 有 84 个神经元,同样使用 ReLU 激活函数。它能够学习到更高级的特征组合,为最终的分类做准备。

08. 输出层

神经元数量:10

激活函数:Softmax

输出层有 10 个神经元,对应 10 个类别(例如在手写数字识别中,对应 0 - 9 这 10 个数字)。Softmax 激活函数将全连接层 2 的输出转换为概率分布,使得所有输出值之和为 1,每个输出值代表属于相应类别的概率。最终,通过选择概率最大的类别作为模型的预测结果。

二、学习表征

浅层学习:不涉及特征学习,其特征主要靠人工经验或特征转换方法来抽取

表示学习:如果有一种算法可以自动地学习出有效的特征,并提高最终机器学习模型的性能,那么这种学习就可以叫作表示学习

 

通常需要从底层特征开始,经过多步非线性转换才能得到。

通过构建具有一定“深度”的模型,可以让模型来自动学习好的特征表示(从底层特征,到中层特征,再到高层特征),从而最终提升预测或识别的准确性。

三、视觉分层理论

视觉分层理论,从底层到高层的不断抽象。

 

浅层卷积核提取:边缘、颜色、斑块等底层像素特征。

中层卷积核提取:条纹、纹路、形状等中层纹理特征。

高层卷积核提取:眼睛、轮胎、文字等高层语义特征。

三、 ImageNet 数据集(2010)

 

四、AlexNet

•AlexNet在2012年赢得了ImageNet竞赛

·更深更大的LeNet

·主要修改 去弃法(防止过拟合) ReLu激活函数(训练)最大池化法

·计算机视觉的范式转变

AlexNet架构

 

 

 

1.AlexNet比相对较小的LeNet5要深得多。AlexNet由八层组成:五个卷积层、两个全连接隐藏层和一个全连接输出层。

2.AlexNet使用ReLU而不是sigmoid作为其激活函数。

更多细节

·将激活函数从sigmoid更改为ReLu(减缓梯度消失)

·在两个隐含层之后应用丢弃法(更好的稳定性/正则化)

·数据增强

 

总结

·AlexNet的架构与LeNet相似,但使用了更多的卷积层和更多的参数来拟合大规模的ImageNet数据集。 

·今天,AlexNet已经被更有效的架构所超越,但它是从浅层网络到深层网络的 关键一步。

·新加入了Dropout、ReLU、最大池化层和数据增强。

二、 VGG网络

VGG19共有16个卷积层和3个全连接层.

此外,还有5个最大池化层分布在不同的卷积层之下。

 

•AlexNet比LLeNet更深入更大,以获得更强性能

·能不能更大更深?·选项·更多稠密层(开销太大)·更多的卷积层·将卷积层组合成块

·VGG块 ·3x3卷积(填充=1)(n层,m个通道 ·2x2最大池化层(步幅=2) ·更深还是更宽? ·5x5卷积 ·3x3卷积(更多) ·更深和更窄更好

 

VGG 架构:

·多个VGG块后加全连接层

·VGG使用可重复使用的卷积块来构建深度卷积神经网络

 

VGG 网络:

不同次数的重复VGG块,可获得不同的架构,例如VGG-16,VGG-19,.....·

 

VGG16:

 

发展:

LeNet(1995)

·2卷积层+池化层

·2隐含层

AlexNet

·更大更深的LeNet

·ReLu激活,丢弃法,预处理

VGG

·更大更深的AlexNet(重复的VGG块)

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值