梯度下降、误差最小化与模型训练的深入解析
1. 梯度与最优值计算
在优化问题中,梯度是一个关键概念。当函数达到最优值时,其梯度为零,这一特性常被用于代数计算最优值。以简单函数 ( L(w_0, w_1) = \sqrt{w_0^2 + w_1^2} ) 为例,当梯度 ( \nabla_{\vec{w}}L = \begin{bmatrix} \frac{\partial L}{\partial w_0} \ \frac{\partial L}{\partial w_1} \end{bmatrix} = \begin{bmatrix} 2w_0 \ 2w_1 \end{bmatrix} = \begin{bmatrix} 0 \ 0 \end{bmatrix} ) 时,可解得 ( w_0 = 0 ),( w_1 = 0 ),即函数在原点处取得最小值,这与我们的直觉相符。
从函数曲线来看,在最小值的一侧,函数曲线向一个方向弯曲;在另一侧,曲线向相反方向弯曲。最小值点通常是一个拐点,切线斜率在一侧为正,在另一侧为负,在最小值处斜率为零。这符合任何光滑连续函数在正负值之间必然经过零值的直觉。
2. 等值面表示与损失最小化
2.1 二维等值线
考虑函数 ( L(w_0, w_1) = \sqrt{w_0^2 + w_1^2} ) 定义在二维 ( W_0, W_1 ) 平面上。该函数在以原点为中心的同心圆上具有恒定值。例如,在圆 ( w_0^2 + w_1^2 = 1 ) 的圆周上,函数值恒为 1;在圆 ( w_0^2 + w_1^2 = 25 ) 的圆周上,函数值恒为 5。这些在定义域上具有恒定函数值的曲线在二维中称为等值线,如图 3.9 所
超级会员免费看
订阅专栏 解锁全文
634

被折叠的 条评论
为什么被折叠?



