深度学习中的寻优算法与抽象神经元解析
在机器学习领域,寻找给定成本函数的全局最小值是任何算法的关键要素。学习过程本质上就是将成本函数的变量调整到最优值的过程。下面我们将深入探讨寻找最小值的算法以及抽象神经元的相关知识。
从局部最小值到全局最小值
大多数搜索算法通常只能得到距离初始搜索点最近的局部最小值。然而,在机器学习中,我们更需要的是全局最小值。为了找到全局最小值,我们可以从多个位置同时开始搜索。
具体做法是,假设搜索域是紧凑的,将其划分为有限个分区。在每个分区元素中选择一个初始搜索点,例如其中心点,然后在该点开始搜索。如果分区足够小,得到的局部最小值的数量会小于分区的数量。所有位于某个局部最小值吸引域内的初始点都会估计出该特定的局部最小值。最后,我们只需选择其中最小的那个,即为全局最小值。
我们可以通过一个形象的比喻来理解这个过程。想象在曲面 (z = f(x)) 上有若干个球,在重力作用下自由滚动。如图 4.21 所示,球 (B1)、(B2) 和 (B3) 属于最小值 (M1) 的吸引域,它们会向 (M1) 滚动;而球 (B4)、(B5) 和 (B6) 会向最小值 (M2) 滚动。单个球只能找到一个局部最小值,但如果有足够多且初始分布足够稀疏的球,就能够找到函数 (f(x)) 的所有局部最小值。对这些局部最小值点处的 (f) 值进行最终评估,就能得到全局最小值。
连续学习
连续学习是指使用具有无穷小学习率的梯度下降法。在经典的梯度下降法中,学习率 (\eta > 0),用于最小化成本函数 (f(x))(其中 (x \in R^n)),更新公式为:
[x(t_{n+1}) = x(t_n) - \
超级会员免费看
订阅专栏 解锁全文
4688

被折叠的 条评论
为什么被折叠?



