线性回归损失函数推导(均方误差角度,概率分布角度) 正规方程法 梯度下降法求解线性回归
从均方误差的角度推导线性回归的损失函数
线性回归是一种最基本的机器学习算法。基本形式为:
y^=θ0x0+θ1x1+θ2x2+θ3x3+……=θTx \hat{y} = \theta_0x_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+……=\mathbf{\theta^Tx} y^=θ0x0+θ1x1+θ2x2+θ3x3+……=θTx
其中:θ=[θ0,θ1,θ2,...θn]T\mathbf{\theta} = [\theta_0,\theta_1,\theta_2,...\theta_n]^Tθ=[θ0,θ1,θ2,...θn]T,x=[1,x1,x2,x3...xn]T\mathbf{x}=[1,x_1,x_2,x_3...x_n]^Tx=[1,x1,x2,x3...xn]T,y^\hat{y}y^是预测值。
对于回归问题,我们采用均方误差作为模型的评估标准。从向量的角度来计算:
J=12m∣∣Xθ−y∣∣22=12m(Xθ−y)T(Xθ−y)=12m(θTXT−yT)(Xθ−y)=12m(θTXTXθ−θTXTy−yTXθ+yTy)=12m(θTXTXθ−2yTXθ+yTy) J = \frac{1}{2m}||\mathbf{X\theta-y}||_2^2 = \frac{1}{2m}(\mathbf{X\theta-y})^T(\mathbf{X\theta-y})=\frac{1}{2m}(\mathbf{\theta^TX^T-y^T})(\mathbf{X\theta-y})\\ =\frac{1}{2m}(\mathbf{\theta^TX^TX\theta}-\mathbf{\theta^TX^Ty}-\mathbf{y^TX\theta}+\mathbf{y^Ty})\\ =\frac{1}{2m}(\mathbf{\theta^TX^TX\theta}-2\mathbf{y^TX\theta}+\mathbf{y^Ty}) J=2m1∣∣Xθ−y∣∣22=2m1(Xθ−y)T(Xθ−y)=2m1(θTXT−yT)(Xθ−y)=2m1(θTXTX<