不论是机器学习中计算最小代价函数,还是深度学习中求损失函数的最小值,本质上都是求解目标函数的最优值(最大或最小值)。
此时,主流方法还是使用梯度下降算法(或上升)进行逐步迭代直到收敛(或接近收敛)。那为什么不直接对损失函数求偏导后,令偏导为0,求出最优解呢?比较典型的如,线性回归问题中采用最小二乘法,求得的解析解如下:
θ = ( X T X ) − 1 X T Y \theta=(X^TX)^{-1}X^TY
不论是机器学习中计算最小代价函数,还是深度学习中求损失函数的最小值,本质上都是求解目标函数的最优值(最大或最小值)。
此时,主流方法还是使用梯度下降算法(或上升)进行逐步迭代直到收敛(或接近收敛)。那为什么不直接对损失函数求偏导后,令偏导为0,求出最优解呢?比较典型的如,线性回归问题中采用最小二乘法,求得的解析解如下:
θ = ( X T X ) − 1 X T Y \theta=(X^TX)^{-1}X^TY