图像分类网络结构记录

最新推荐文章于 2024-05-05 12:29:54 发布

原创

最新推荐文章于 2024-05-05 12:29:54 发布 · 790 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉

分类网络

分类网络简单说来就是判断图片中是否存在需要检测的物体，按照存在的物体类别进行分类。分类网络从提出发展到现在，经过了多种变化，效果越来越好，结构也越累越复杂，我学习的步骤是LeNet ,AlexNet,ZFNet,VGGNet,GoogLeNet,ResNet。

LeNet

LeNet的提出非常早，也是首个将神经网络用于图像分类中。其中利用了卷积池化全连接等操作，提取图像的特征，完成了分类识别。并且实现了参数共享大大减小了计算量。LeNet5应用于手写数字识别中。
在这里插入图片描述
如图所示，LeNet网络总共有7层，输入时首先将图片大小调整为32321，第一层为卷积层，卷积核大小为5 * 5，卷积核数量为6，输出特征图像大小为28 * 28 * 6。第二层为池化层，过滤器大小为2 * 2，长和宽的部长都为2，输出图像大小为14 * 14 * 6。第三层位卷积层，卷积核大小为5 * 5，数量为16，输出图像大小为10 * 10 * 16。第四层为池化层，过滤器大小为2 * 2，步长为2，输出大小为5 * 5 * 16。第五层为全连接层（也可以看作是5 * 5大小的卷积层），输出为120个1 * 1特征信息。第六层为全连接层，输出为84，第七层为全连接层，输出为10，分别代表十个数字。
LeNet对于手写数字识别具有非常好的效果，并且参数较少，但是受制于计算能力的限制，不能用于复杂的图像分类中。