线性回归
模型:y=WX+by = \boldsymbol {W} \boldsymbol {X}+by=WX+b
线性模型可以看作是单层神经网络 (与感知机区别开!!!)
平方损失:l(y^,y)=12(y−y^)2l(\hat y,y)=\frac{1}{2}(y-\hat y)^{2}l(y^,y)=21(y−y^)2(和MSE区分开!!!)
在样本上训练的时候,求解的是所有样本损失值的平均值
线性回归具有显示解
动手实践
梯度下降算法
当没有显示解的时候,用到一种名为梯度下降(gradient descent)的方法, 这种方法几乎可以优化所有深度学习模型。 它通过不断地在损失函数递减的方向上更新参数来降低误差。
Softmax回归
待更新ing