Quoc. Le 2012论文中的所讨论的深度结构,有下面几个关键点:
1、共三个大层,每一个大层包括三个小层,分别是卷积层、位置不变层、局部归一化层。
2、原图大小是200*200,以前的研究人员大多使用32*32.
3、卷积层,没有共享参数,每一个像素位置,对应若干个模版,不同像素位置的模版,完全不同,所以参数空间相当庞大。
4、包含了彩色信息,RGB三个通道的地位是一样的,进一步增加了参数的数目。
5、卷积层,模版尺寸是18*18.
关于卷积层的特殊结构,我之前是相当之不赞同的,很难以理解为何作者要这样做。我原来的一个设想,所有的模版,都应该跟原图大小一样才对。但是就在今早上,突然想明白了,作者这样设计,其实有他的优势,本质上我的思路,跟他的是一样的。具体阐述如下:
1、小模板利于描述点、短线段这样的结构。图像中的小尺寸结构,只需要小模板就能描述。使用大模版,简直就是浪费。如果一个大模版中,很多地方存储的都是0,这是毫无意义的。这种方式对于节约内存空间是很有帮助的。从可复用性的角度上来讲,小模板就像活字印刷一样,利于组建大模版,提高了效率。
2、长线段的描述。长线段可以采用多个小线段拼接的方式进行描述。
还有些没想清楚的问题:
1、为什么不同位置的小模板没有采用共享参数的方式,而是采用了灵活参数的方式。要是能够把这些参数输出来看下就好了,真想知道不同位置,训练结果是否一样的。总是感觉,局部特征,只需要点,再加上各个方向的线段,就描述清楚了,因此不同位置完全可以采用同样的参数。
2、位置不变层,以及归一层的作用。