梯度下降与参数更新详解
1. 随机起点与损失曲面
在处理简单的单特征线性回归问题时,我们有一个随机起点,它对应着随机初始化的参数。这是这类简单问题的一个优点,因为我们只有两个参数($b$ 和 $w$),所以能够计算并可视化损失曲面。但需要注意的是,对于绝大多数问题,计算损失曲面是不可行的,我们只能依靠梯度下降从随机点出发,找到损失的最小值点。
2. 损失曲面的横截面
我们可以对损失曲面进行横截面切割,以查看在一个参数保持不变时,另一个参数对损失的影响。具体操作如下:
- 垂直横截面(固定 $b$) :令 $b = 0.52$($b$ 取值范围中最接近初始随机值 $0.4967$ 的值),在损失曲面上垂直切割(红色虚线),得到的结果表明,当 $b$ 保持不变时,从参数 $w$ 的角度看,增加 $w$(到 $2$ 到 $3$ 之间的某个值)可以使损失最小化。
- 水平横截面(固定 $w$) :令 $w = -0.16$($w$ 取值范围中最接近初始随机值 $-0.1382$ 的值),水平切割损失曲面,结果显示,当 $w$ 保持不变时,增加 $b$(到接近 $2$ 的某个值)可以使损失最小化。
一般来说,横截面的目的是在保持其他参数不变的情况下,研究单个参数变化对损失的影响,这其实就是梯度的概念。这里有一个问题:当修改变化参数时,红色虚线($w$ 变化,$b$ 不变)和黑色虚线($b$ 变化,$w$ 不变)哪条曲线导致的损失变化最大?答案将在后续揭晓。
3. 计算梯度
梯度是偏导数,因为它是针对单个参数计算的。在我们的例子中
超级会员免费看
订阅专栏 解锁全文
4653

被折叠的 条评论
为什么被折叠?



