GoogleNet网络详解与keras实现
本博客旨在给经典的GoogleNet网络进行详解与代码实现,如有不足或者其他的见解,请在本博客下面留言。
GoogleNet系列网络的概览
- InceptionV1,通过把不同尺寸的卷积核如1x1,3x3,5x5进行堆叠增加了网络对不同尺度的适应性。并且通过在3x3的网络,5x5的网络后加入1x1使得网络的计算复杂度降低,而且提高网络的非线性的程度,基于更强的表征能力。
- InceptionV2,加入了BatchNormalization层,减少了Internal Variance Shift。使得每一程的输出的分布都满足指定的高斯分布,可以防止训练集与测试集之间分布的不匹配,还能加快网络收敛速度,防止过拟合。
- InceptionV3,在InceptionV3中google将分解的思想用到了极致,把二维卷积核(NxN)拆成两个方向上的一维卷积核(Nx1,1xN)。这样做不仅仅加快了网络的运算速度,而且由于增加网络的层数,使得网络的非线性增加,提高网络的表征能力。
- InceptionV4,尝试着把Inception的结构与Resnet的结构进行结合,并设计了一个更深更加优秀的网络InceptionV4。
在本篇博客中,我们将实现一个类似于InceptionV2的结构,并用VOC2012的数据集进行网络的训练,验证,与测试。为了快速开发,本次我们把Keras作为代码的框架。
Pascal_VOC数据集
Pascal VOC为图像识别,检测与分割提供了一整套标准化的优秀的数据集,每一年都会举办一次图像识别竞赛。下面是VOC2012,训练集(包括验证集)的下载地址。
VOC2012里面有20类物体的图片,图片总共有1.7万张。我把数据集分成了3个部分,训练集,验证集,测试集,比例为8:1:1。
下面是部分截图:
第一层目录
第二层目录
第三层目录
接着我们使用keras代码来使用这个数据集,代码如下:
IM_WIDTH=224 #图片宽度
IM_HEIGHT=224 #图片高度
batch_size=32 #批的大小
#train data
train_datagen = ImageDataGenerator(
rotation_range=30,
width_shift_range=0.2,
height_shift_range=0.2,
shear_range=0.2,
zoom_range=0.2,
horizontal_flip=True,
featurewise_center=True
)
train_generator = train_datagen.flow_from_directory(
train_root,
target_size=(IM_WIDTH, IM_HEIGHT),
batch_size=batch_size,
)
#vaild data
vaild_datagen = ImageDataGenerator(
rotation_range=30,
width_shift_range=0.2,
height_shift_range=0.2,
shear_range=0.2,
zoom_range=0.2,
horizontal_flip=True,
featurewise_center=True
)
vaild_generator = train_datagen.flow_from_directory(
vaildation_root,
target_size=(IM_WIDTH, IM_HEIGHT),
batch_size=batch_size,
)
#test data
test_datagen = ImageDataGenerator(
rotation_range=30,
width_shift_range=0.2,
height_shift_range=0.2,
shear_range=0.2,
zoom_range=0.2,
horizontal_flip=True,
featurewise_center=True
)
test_generator = train_datagen.flow_from_directory(
test_root,
target_size=(IM_WIDTH, IM_HEIGHT),
batch_size=batch_size,
)
我使用了3个ImageDataGenerator,分别来使用训练集,验证集与测试集的数据。使用ImageDataGenerator需要导入相应的模块,==from keras.preprocessing.image import ImageDataGenerator==。ImageDataGenrator可以用来做数据增强,提高模型的鲁棒性.它里面提供了许多变换,包括图片旋转,对称,平移等等操作。里面的flow_from_directory方法可以从相应的目录里面批量获取图片,这样就可以不用一次性读取所有图片(防止内存不足)。
InceptionV1模块介绍
要想理解Googlenet的结构,第一步必须先知道Inception的结构,因为它是由多个Inception的结构组合而成的。如下图Fig.2所示,(a)表示朴素的版本的inception v1示意图,(b)表示降维版本的Inception v1示意图。
Inception的主要思想基于——一个卷积网络里面的局部稀疏最优结构往往可以由简单可复用的密集组合来近似或者替代。就像(a)里面,1x1,3x3,5x5的卷积层,与3x3的池化层的组合一个inception。这样做的几点说明:
- 不同尺寸的卷积核可以提取不同尺度的信息。
- 采用1x1,3x3,5x5可以方便对齐,padding分别为0,1,2就可以对齐。
- 由于池化层在CNN网络里面的成功运用,也把池化层当做组合的一部分。
- 由于Googlenet是好几个Inception模块的堆叠,而且往往越后面的Inception模块提取的是更加高级抽象的特征,而由于高级抽象的特征的时域联系会降低。(在这里加上一点个人理解,当提取的特征比较简单,比如边缘,轮廓的时候,往往只需要提取某个像素附近的几个像素就行了,这时卷积核比较小,没有问题。但是当提取的特征变得复杂的时候,比如提取的是人的鼻子,耳朵的时候,需要的可能就是某个像素旁边几十或者几百个像素了。当然我说的这些像素指的是特征图里面的像素。)因此为了获取这些高级信息,我们在后面的Inception模块里面需要增大3x3,5x5这些大卷积核的比例。
但是这么做,问题又来了,如果提高大卷积核的比例,那么这会意味着计算复杂度的飙升。为此,google的工程师们又提出(b)的这个Inception结构。