UFLDL——Exercise: Convolution and Pooling 卷积和池化

最新推荐文章于 2023-02-08 14:46:05 发布

原创

最新推荐文章于 2023-02-08 14:46:05 发布 · 3.3k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#Convolution #Pooling #卷积 #池化 #softmax回归

该博客介绍了通过卷积神经网络（CNN）对RGB图像进行分类的实验，首先讲解了网络结构，包括线性解码器、卷积、池化和softmax回归。实验使用STL-10图像集，选取了四个类别进行分类，训练集2000张，测试集3200张。通过CNN，将64x64x3的RGB图像转换为3600维向量，使用平均池化在测试集上达到80.406%的准确率。对比最大池化，准确率为78.563%。博客提供了实验代码供下载。

实验要求可以参考deep learning的tutorial，Exercise：Convolution and Poling 卷积和池化。

本实验通过卷积神经网络对RGB彩色图像进行分类，先通过CNN网络从图像从学习得到3200维度的特征，然后训练四分类的softmax分类器进行分类。

1、神经网络结构

整个网络可以包括四部分，线性解码器，卷积，池化和softmax回归。线性解码器的输入层8*8*3个neuron，隐含层为400个neuron（都不包括bias结点），输出层为8*8*3个neuron，通过线性解码器学习到特征。

卷积的大小为8*8（一层），池化大小为19*19平均池化（一层）。

在这种结构下，我们给定64*64*3大小的RGB图像，通过卷积操作得到400*57*57*3（64-8+1 =57）大小的矩阵（400为隐含层的个数，每一个为一个特征），为了方便实验中把RGB三个通道进行了求和，得到400*57*57大小的数据。然后进行池化操作，得到400*3*3（57*19=3）大小3维数据，然后这个三维数据转化成3600大小的向量来表示图像。通过这个网络后，每一张64*64*3大小的RGB图像就变成了3600大小的向量，然后通过softmax回归对图像进行分类。

2、数据

实验中的数据集为STL-10图像集，每一个数据是大小为96x96标注的彩色图像，这数据属于airplane, bird, car, cat, deer, dog, horse, monkey, ship, truck十个类中的一类。为了减少计算时间，使用中只采用了airplane, car, cat, dog四个类的图像。其中，训练集大小为2000，特测试集大小为3200.

实验数据以及预先把数据集表示成了一个四维矩阵，images(r, c, channel, image number)，第一维为行，第二维为列，第三维为通道（RGB），第三位表示图像，根据这种表示方法，训练解的大小为64*64*3*2000。

3、实验结果

实验中，实现对卷积和池化的代码实现进行了检验。从下图中，我们可以发现卷积和池化共分了8次进行（400/50=8），每一次进行50维度大小的计算，这样做是为了避免出现内存不足的情况。

最后用3200的特征训练四分类的softmax分类器，最后在测试集上的正确率为80.406%（平均池化）。实验中，我把平均池化用最大池化进行替代，最后得到的正确率为78.563%，从中可以发现选择不同的池化方式最最后的结果也会有比较大的影响。

最低0.47元/天解锁文章

1 条评论

YYMN 2015.01.15
你好，请问这个实验应用了前面Linear Decoders with Autoencoders的结果，而前面的实验的结构是192-400-192，对应8*8*3的彩色图片，这样训练的每个隐含层单元在第一层都有192个连接系数。而在这个CNN实验中，把每个隐含单元的192个系数拆成对应于RGB的3*64个模板，每个对应的8*8模板和对应的RGB分量卷积然后求和。但根据这样把64*3拆开其实损失了全连接中的信息。还不如在Linear Decoders with Autoencoders实验中对应于RGB3个分量分别训练64-400-64个模型，这样对应的模板应该效果更好吧，这样就没有损失全连接里面的隐含内容。谢谢！
- YYMN回复Danieljf24 2015.01.21
  [reply]Daniel_djf[/reply] 哦我的意思是在192-400-192的自编码线性解码器中，总共训练了两层参数，第一层压缩编码的参数是用来给卷积层用的，而对应于400个中间层的神经元，每个都和前一层192个神经元全连接，那么400个隐藏层神经元，每个都有192个连接系数，而后在卷积层，每个隐藏神经元都要和8*8*3的RGB图像卷积，就是对应RGB每个分量都是用8*8=64的核去卷积，对应3个分量，就是3*64=192个参数卷积，这个参数感觉就是自编码线性解码器对应于训练出来的，每个隐藏层神经元都有的192的参数，所以我会说是那192个参数，拆分为64*3，每个64卷积RGB中的一个分量。
- Danieljf24回复YYMN 2015.01.20
  [reply]xingguo2000[/reply] 不是特别的理解你说的把每个隐含单元的192个系数拆成对应于RGB的3*64个模板。在上个实验中，学到的是卷积层的参数，然后在这个实验室用这个参数进行卷积操作。但在实际的深度学习中，一般是在同一网络中学习卷积的参数，而不是用这种方法。