训练神经网络的常用方法之梯度下降法

本文介绍了神经网络训练中的梯度下降法,包括其基本原理、算法推导、调优技巧,如步长选择、初始值影响及归一化处理。此外,还提到了该方法在大规模模型中的适用性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

训练神经网络的方法如下所示:

(1) traingd:基本梯度下降法,收敛速度比较慢。
(2) traingda:自适应学习率的梯度下降法
(3) traingdm:带有动量项的梯度下降法, 通常要比traingd 速度快。
(4) traingdx: 带有动量项的自适应学习算法, 速度要比traingdm 快。
(5) trainrp: 弹性BP 算法, 具有收敛速度快和占用内存小的优点。
(6) trainscg: 归一化共轭梯度法
(7) trainbfg: BFGS- 拟牛顿法
(8) traino ss: 一步分割法,为共轭梯度法和拟牛顿法的一种折衷方法。
(9) trainlm: Levenberg-Marquardt算法,对中等规模的网络来说, 是速度最快的一种训练算法, 其缺点是占用内存较大。 (10) trainbr: 贝叶斯规则法,对Levenberg-Marquardt算法进行修改, 以使网络的泛化能力更好,同时降低了确定最优网络结构的难度。

其中常用的包括梯度下降法、牛顿法、拟牛顿法以及共轭梯度法
一、 梯度下降法(Gradient descent)
1、梯度下降方法简介:它是最简单的训练算法。它仅需要用到梯度向量的信息,因此属于一阶算法。 梯度下降方法有一个严重的弊端,该方法需要进行很多次迭代运算。当神经网络模型非常庞大、包含上千个参数时,梯度下降方法是我们推荐的算法。
图1 梯度下降迭代求解过程
2、梯度下降的算法推导:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值