机器学习三要素:
- 模型:根据具体问题,确定假设空间
- 策略:根据评价标准,确定选取最优模型的策略(损失函数由此诞生)
- 算法:求解损失函数,得出最优模型
解释下列公式推导:
E
w
^
=
(
y
−
X
w
^
)
T
(
y
−
X
w
^
)
E_{\hat{w}} = (\boldsymbol{y} - \mathbf{X}\hat{\boldsymbol{w}})^{\mathrm{T}}(\boldsymbol{y} - \mathbf{X}\hat{\boldsymbol{w}})
Ew^=(y−Xw^)T(y−Xw^)求导得到
∂
E
w
^
∂
w
^
=
2
X
T
(
X
w
^
−
y
)
\frac{\partial E_{\hat{w}}}{\partial \hat{\boldsymbol{w}}} = 2\mathbf{X}^{\mathrm{T}}(\mathbf{X}\hat{\boldsymbol{w}} - \boldsymbol{y})
∂w^∂Ew^=2XT(Xw^−y)
为了求导,先展开这个表达式。根据矩阵乘法的性质,我们可以将其展开为:
E
w
^
=
(
y
T
−
w
^
T
X
T
)
(
y
−
X
w
^
)
E_{\hat{w}} = (\boldsymbol{y}^{\mathrm{T}} - \hat{\boldsymbol{w}}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}})(\boldsymbol{y} - \mathbf{X}\hat{\boldsymbol{w}})
Ew^=(yT−w^TXT)(y−Xw^)
E
w
^
=
y
T
y
−
y
T
X
w
^
−
w
^
T
X
T
y
+
w
^
T
X
T
X
w
^
E_{\hat{w}} = \boldsymbol{y}^{\mathrm{T}}\boldsymbol{y} - \boldsymbol{y}^{\mathrm{T}}\mathbf{X}\hat{\boldsymbol{w}} - \hat{\boldsymbol{w}}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\boldsymbol{y} + \hat{\boldsymbol{w}}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\mathbf{X}\hat{\boldsymbol{w}}
Ew^=yTy−yTXw^−w^TXTy+w^TXTXw^
由于
y
T
X
w
^
\boldsymbol{y}^{\mathrm{T}}\mathbf{X}\hat{\boldsymbol{w}}
yTXw^ 和
w
^
T
X
T
y
\hat{\boldsymbol{w}}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\boldsymbol{y}
w^TXTy是同一个值,因此可以合并:
E
w
^
=
y
T
y
−
2
w
^
T
X
T
y
+
w
^
T
X
T
X
w
^
E_{\hat{w}} = \boldsymbol{y}^{\mathrm{T}}\boldsymbol{y} - 2\hat{\boldsymbol{w}}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\boldsymbol{y} + \hat{\boldsymbol{w}}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\mathbf{X}\hat{\boldsymbol{w}}
Ew^=yTy−2w^TXTy+w^TXTXw^ 对
w
^
\hat{\boldsymbol{w}}
w^ 求导
逐项求导:
- y T y \boldsymbol{y}^{\mathrm{T}}\boldsymbol{y} yTy 是常数,对 w ^ \hat{\boldsymbol{w}} w^ 的导数为 0。
- − 2 w ^ T X T y -2\hat{\boldsymbol{w}}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\boldsymbol{y} −2w^TXTy的导数为 − 2 X T y -2\mathbf{X}^{\mathrm{T}}\boldsymbol{y} −2XTy。
-
w
^
T
X
T
X
w
^
的导数为
2
X
T
X
w
^
\hat{\boldsymbol{w}}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\mathbf{X}\hat{\boldsymbol{w}} 的导数为2\mathbf{X}^{\mathrm{T}}\mathbf{X}\hat{\boldsymbol{w}}
w^TXTXw^的导数为2XTXw^。
因此,总导数为:
∂ E w ^ ∂ w ^ = − 2 X T y + 2 X T X w ^ \frac{\partial E_{\hat{w}}}{\partial \hat{\boldsymbol{w}}} = -2\mathbf{X}^{\mathrm{T}}\boldsymbol{y} + 2\mathbf{X}^{\mathrm{T}}\mathbf{X}\hat{\boldsymbol{w}} ∂w^∂Ew^=−2XTy+2XTXw^
简化后得到: ∂ E w ^ ∂ w ^ = 2 X T ( X w ^ − y ) \frac{\partial E_{\hat{w}}}{\partial \hat{\boldsymbol{w}}} = 2\mathbf{X}^{\mathrm{T}}(\mathbf{X}\hat{\boldsymbol{w}} - \boldsymbol{y}) ∂w^∂Ew^=2XT(Xw^−y)
总结:
task02总体来讲偏向入门(每次学习都卡在线性回归这一块,算是深度学习中的abandon),适合回顾之前的线代知识,在南瓜书视频中学到了一些巧妙的推导方法。