神经网络中超参数调节和优化技巧、优化算法的分类介绍

本文介绍了卷积神经网络的基础和重要性,强调了超参数如学习率、迭代次数、批次大小、激活函数等在模型性能中的作用。同时,讨论了不同的优化算法,包括梯度下降、随机梯度下降、动量方法以及Adagrad、AdaDelta和Adam等自适应学习率算法,阐述了它们的工作原理和适用场景。

在深度学习中,有许多不同的深度网络结构,包括卷积神经网络(CNN或convnet)、长短期记忆网络(LSTM)和生成对抗网络(GAN)等。

在计算机视觉领域,对卷积神经网络(简称为CNN)的研究和应用都取得了显著的成果。CNN网络最初的诞生收到了动物视觉神经机制的启发,目前已成功用于机器视觉等领域中。

什么是卷积神经网络

卷积神经网络是指一个网络中至少包含一个卷积层的神经网络。通常卷积神经网络是由:卷积层、池化层、非线性激活层、全连接层组成,最后输出对应的类别标签。

神经网络最初在手写数字识别上有着很好的效果,但是随着输入图片的复杂性与信息量加增,使之前的算法逐渐难以处理,而卷积神经网络的出现有效解决了这个问题。

卷积神经网络识别目标的过程,是先寻找诸如边缘、线段和曲线等相关低级特征,然后使用多个卷积层来构建更多抽象的高级特征。

在卷积层的学习过程中,CNN网络通过共享多个卷积核(或特征检测器)的权值,来学习每张图片的局部信息,并用于构建抽象特征图谱。卷积核共享特性大大降低了训练网络所需的参数量。由于经过训练的检测器可以通过卷积层重复用来组合地检测图片中的抽象特征,因此卷积神经网络更适用于复杂的图像识别任务。

超参数的调整

在进行深层卷积神经网络参数调节上也不是容易的,因为参数量大,训练起来很是费时间。

下面说几个常用的超参数:

学习率

学习率是指在优化算法中更新网络权重的幅度大小。学习率可以是恒定的、逐渐降低的、基于动量的或者是自适应的,采用哪种学习率取决于所选择优化算法的类型,如SGD、Adam、Adagrad、AdaDelta或RMSProp等算法。

迭代次数

迭代次数是指整个训练集输入到神经网络进行训练的次数。当测试错误率和训练错误率相差较小时,可认为当前的迭代次数是合适的,否则需继续增大迭代次数,或调整网络结构。

批次大小

在卷积神经网络的学习过程中,小批次会表现得更好,选取范围一般位于区间[16,128]内。

还需要注意的是,CNN网络对批次大小的调整十分敏感。

激活函数

激活函数具有非线性,理论上可以使模型拟合出任何函数。通常情况下,rectifier函数在CNN网络中的效果较好。当然,可以根据实际任务,选择其他类型的激活函数,如Sigmoid和Tanh等等。

隐含层的数目和单元数

增加隐含层数目以加深网络深度,会在一定程度上改善网络性能,但是当测试错误率不再下降时,就需要寻求其他的改良方法。增加隐含层数目也带来一个问题,即提高了训练该网络的计算成本。

当网络的单元数设置过少时,可能会导致欠拟合,而单元数设置过多时,只要采取合适的正则化方式,就不会产生不良影响。

权重初始化

在网络中,通常会使用小随机数来初始化各网络层的权重,以防止产生不活跃的神经元,但是设置过小的随机数可能生成零梯度网络。一般来说,均匀分布方法效果较好。

Dropout方法

作为一种常用的正则化方式,加入Dropout层可以减弱深层神经网络的过拟合效应。该方法

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Dream_Bri

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值