目录
1. 前言
Alexnet是Alex 在2012年提出的深度卷积神经网络,是LeNet一种更深更宽的版本,是CNN在图像分类上的经典模型。
2. 数据集
ImageNet数据集包含大概22000类150多万带标签的高分辨率图像。本文模型要求固定输入的输入维度,因此对图像采样获得256x256的图像集。对于每张图片,先把短边调整为256,然后取中间的256x256区域。预处理——训练集和测试集,都减去训练集的均值图像。
数据归一化和标准化
3. 结构
3.1 ReLU非线性函数(ReLU Nonlinearity)
一般神经元的激活函数会选择sigmoid函数或者tanh函数,然而Alex发现在训练时间的梯度衰减方面,这些非线性饱和函数比非线性非饱和函数慢很多。在AlexNet中用的非线性非饱和函数f(x)=max(0, x),ReLU。实验表明,ReLU比tanh快6倍。
sigmoid函数缺点和ReLU函数优点
3.2 Training on Multiple GPUs
GTX 580 GPU 3G memory,每个GPU放置一半的神经元,GPU之间只在特定的层交流。这种模式允许我们精确调整连接数,使计算量可控。
3.3 LRN(局部响应归一化)
侧抑制,增加泛化能力。ReLU本来不需要对输入进行标准化,本文发现LRN能提高性能。
其中a代表在feature map中第i个卷积核(x,y)坐标经过了ReLU激活函数的输出,n表示相邻的几个卷积核。N表示这一层总的卷积核数量。k, n, α和β是hyper-parameters,他们的值是在验证集上实验得到的,本文k = 2,n = 5,α = 0.0001,β = 0.75。
3.4 Overlapping Pooling:
使用重叠的最大池化,以前在卷积神经网络中大部分都采用平均池化,在AlexNet中都是使用最大池化,最大池化可以避免平均池化的模糊化效果。重叠的最大池化是指卷积核的尺寸要大于步长,这样池化层的输出之间会有重叠和覆盖,提升特征的丰富性。在AlexNet中使用的卷积核大小为3×3,横向和纵向的步长都为2。
3.5 整体结构
3.5.1 Alexnet结构
整个Alexnet具有8个需要训练参数的层(不包括有max pool以及LRN层),前面5个是卷积层,后面的3个是全链接层。如上图。最后的一层是1000类的输出的softmax层,是作为最后分类输出的。LRN出现在第一和第二个卷积层之后,max pool出现在两个LRN层以及最后一个卷积层之后。而ReLU均出现在这8层每一层的后面。Alexnet在训练时候分到两个GPU加以训练,两个GPU除了在第3层卷积层进行数据通信外,其他的卷积操作(提取特征)都是独立进行。
3.5.2 各层训练参数的计算
3.5.3 参数计算公式
4. 减少过度拟合
4.1 数据增益
降低图像数据过拟合的最简单常见的方法就是利用标签转换人为地增大数据集。本文采取两种不同的数据增强方式,这两种方式只需要少量的计算就可以从原图中产生转换图像,因此转换图像不需要存入磁盘。本文中利用GPU训练先前一批图像的同时,使用CPU运行Python代码生成转换图像。因此这些数据增强方法实际上是不用消耗计算资源的。
- 第一种数据增强的形式包括生成平移图像和水平翻转图像。做法就是从256x256的图像中提取随机的224x224大小的块(以及它们的水平翻转),然后基于这些提取的块训练网络。这个让我们的训练集增大了2048倍((256-224)2*2=2048),尽管产生的这些训练样本显然是高度相互依赖的。如果不使用这个方法,本文的网络会有大量的过拟合,这将会迫使我们使用更小的网络。在测试时,网络通过提取5个224x224块(四个边角块和一个中心块)以及它们的水平翻转(因此共十个块)做预测,然后网络的softmax层对这十个块做出的预测取均值。
- 第二种数据增强的形式包括改变训练图像的RGB通道的强度。特别的,本文对整个ImageNet训练集的RGB像素值进行了PCA。对每一幅训练图像,本文加上多倍的主成分,倍数的值为相应的特征值乘以一个均值为0标准差为0.1的高斯函数产生的随机变量。因此对每一个RGB图像像素Ixy=[IRxy,IGxy,IBxy]T加上如下的量:
[P1, P2, P3][α1λ1,α2λ2,α3λ3]T。这里Pi,λi分别是RGB像素值的3x3协方差矩阵的第i个特征向量和特征值,αi是上述的随机变量。每一个αi的值对一幅特定的训练图像的所有像素是不变的,直到这幅图像再次用于训练,此时才又赋予αi新的值。这个方案得到了自然图像的一个重要的性质,也就是,改变光照的颜色和强度,目标的特性是不变的。这个方案将top-1错误率降低了1%。
4.2 Dropout
结合多个模型的预测值是减少错误的有效方法,但是对于训练时间用好几天的大型神经网络太耗费时间。Dropout是有效的模型集成学习方法,具有0.5的概率讲隐藏神经元设置输出为0。运用了这种机制的神经元不会干扰前向传递也不影响后续操作。因此当有输入的时候,神经网络采样不用的结构,但是这些结构都共享一个权重。这就减少了神经元适应的复杂性。测试时,用0.5的概率随机失活神经元。dropout减少了过拟合,也使收敛迭代次数增加一倍。
5. Alexnet实现
from datetime import datetime
import math, time
import tensorflow as tf
batch_size = 32
num_bathes = 100
"获取tensor信息"
def print_tensor_info(tensor):
print("tensor name:", tensor.op.name, "-tensor shape:", tensor.get_shape().as_list())
'''
计算每次迭代消耗时间
session:tensorflow的session
target:需要评测的运算算子
info_string:测试的名称
'''
def time_tensorflow_run(session, target, info_string):
# 前10次迭代不计入时间消耗
num_step_burn_in = 10
total_duration = 0.0
total_duration_squared = 0.0
for i in range(num_bathes + num_step_burn_in):
start_time = time.time()
_ = session.run(target)
duration = time.time() - start_time
if i >= num_step_burn_in:
if not i % 10:
print("%s:step %d,duration=%.3f" % (datetime.now(), i - num_step_burn_in, duration))
total_duration += duration
total_duration_squared += duration * duration
# 计算消耗时间的平均差
mn = total_duration / num_bathes
# 计算消耗时间的标准差
vr = total_duration_squared / num_bathes - mn * mn
std = math.sqrt(vr)
print("%s:%s across %d steps,%.3f +/- %.3f sec / batch" % (datetime.now(), info_string, num_bathes, mn, std))
# 主函数
def run_benchmark():
with tf.Graph().as_default():
image_size = 224
# 以高斯分布产生一些图片
images = tf.Variable(tf.random_normal([batch_size