深度学习研究理解4:ImageNet Classification with Deep Convolutional Neural Network

本文是Alex和Hinton参加ILSVRC2012比赛的卷积网络论文,本网络结构也是开启Imagenet数据集更大,更深CNN的开山之作,本文对CNN的一些改进成为以后CNN网络通用的结构;在一些报告中被称为Alex-net,之后在Imagenet上取得更好结果的ZF-net,SPP-net,VGG等网络,都是在其基础上修改得到。

摘要:

本文训练了一个大的,深的CNN,去分类高像素的图片。在ILSVRC2010中,top-1和top-5的成绩分别为37.5%和17.0%;这个大的网络包含6千万个参数和65万的神经元;由5个卷基层,3个全连接层和最终分类器构成。利用了RELU,dropout,data augmentation等多种防止过拟合的技术。在ILSVRC-2012中获得了top-5分类准确率为15.3%。

 一,介绍

直到最近,有标记的图片数据集还是比较小,例如NORB,MNIST,CIFAR,Caltech等,由于小数据集上物体变化相对较少,一些的识别方法可以得到不错的结果,尤其是是使用数据增益技术的时候,可以提高识别率。但是现实世界中的物体具有很大的变化,所以想要识别他么需要更大的数据集。ImageNet数据集包含了1500万张高像素图片,大约2万2千类。

……大数据,更多类别,需要更大“容量“的网络;卷积网络就是一个好的选择,局部连接,权值共享等特征,使其参数少,训练容易;而且还可以通过长度,和宽度来控制”容量“。

尽管CNN有很多优势,但是对于高像素图像的分类问题,计算仍然是一个主要的瓶颈。幸运的是,高性能GPU,并行计算,高度优化的2D卷积计算是的训练成为可能。

本文在两个GTX580上训练了5到6天。

二,数据集

ILSVRC使用ImageNet的一个子集,一共1000个类别,每个类别包含大约1000张图片;训练集120万张,验证集5万张,15万张测试集。

三,结构

作者首先描述一些新奇和不一样的结构特征,描述顺序按照估计重要性排列。

3.1 ReLU非线性

模拟神经元输出的标准函数一般是:tanh(x)或者sigmoid(x)函数,由于此类函数在x非常大或者非常小时,函数输出基本不变,所以此类函数成为饱和函数;f(x)=max(0,x),扭曲线性函数,是一种非线性的非饱和函数。在训练时间上,非饱和函数比饱和函数训练更快。而且这种扭曲线性函数,不但保留了非线性的表达能力,而且由于其具有线性性质(正值部分),相比tanh和sigmoid函数在误差反向传递时,不会有由于非线性引起的梯度弥散形象(顶层误差较大,由于逐层递减误差传递,引起低层误差很小,导致深度网络地层权值更新量很小,导致深度网络局部最优)

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值