自适应学习速率调整和常用的梯度下降算法_根据梯度的大小来自适应地调整学习率-优快云博客

本文探讨了几种关键的优化算法，包括mini-batch gradient descent、RMSProp及其动量版本、以及Adam等，这些算法能够帮助神经网络克服局部最小值问题，并有效应对因网络深度增加导致的非凸误差曲面挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

chapter 4 Beyond Gradient Desent

intracttable 棘手的，难以解决的

hundle 障碍

主要讲述几种优化算法。
接下来探索局部最小值以及由此在训练网络中可能引起的问题。接着探索由于网络模型过深而引起的误差非凸面化，在这种情况下，小批量梯度下降算法失效。接着将探索非凸优化方法是如何克服这种问题的。

有很多的局部最小值，而神经网络需要找到全局最小值
这里写图片描述

这个是题外话，了解一下阿偶：
* 模型唯一性
这里写图片描述
对于一个l层，每层有n个神经元的网络，有 $n^{!^l}$ 中安排参数的方法，最终网络的输出相同。

学习速率调整(learning rate adaptation)

选择正确的学习速率很重要，学习速率过小，收敛速度过慢
学习速率太大，直接忽略某些局部最小值

学习速率自适应调整（learning rate adaption）：在训练过程中适当的修改学习速率来达到更好的收敛性

通过调整momentum来确定是否使用蒙特卡洛方法

RMSProp是一个非常高效的算法，对于很多的资深从业者而言是默认的选择