本人CV小硕一枚,近期开始写博客记录自己的机器视觉学习之路,一来对自己所学加以纪录做到温故而知新,二来也能为初学者提供学习的一些资源。所写内容若有不妥之处,还请各位看官指正~
最近阅读了Yann LeCun的论文‘Gradient-Based Learning Applied to Document Recognition‘,文章中描述到传统的对于手写字体的识别主要分为两大模块:一、特征提取模块,需要设计特征提取器,来进行特征的提取;二、使用提取的结果进行分类,针对每一个类别产生score,选取score高的分类结果作为最后输出;流程如下:
而Yann LeCun在文中提出使用7层(不包含输入)卷机神经网络来进行手写字母的识别(单独的字母),feature由网络自身自学习得到,不再手工设计,体现了深度学习的自学习性,以下为网络的结构图:
接下来依次对每一层进行学习:
C1层:C1层为卷积层,由6个feature map构成,会自学习得到六种不同的卷积核。C1层通过对输入图像进行卷积操作得到(6个卷积核故得到6幅图像),卷积操作(不了解卷积操作可以参考http://www.36dsj.com/archives/24006),可以有效的使原信号特征增强,并降低噪音。输入为32*32大小的手写字体图像,特征图中每个神经元和输入5*5区域相连,因此特征图大小为28*28(32-5+1=28),训练的参数总数为156个((5*5+1)*6=156,每个feature map有5*5的卷积核参数以及一个bias参数),总连接数为122304个(156*28*28=122304)。
S2层:是一个sub-sampling层,