正规方程推导(Normal equation)

线性回归的两种求解方法
本文深入探讨了线性回归中正规方程和梯度下降两种求解方法的原理与应用。通过数学推导,详细解释了如何利用这两种方法来最小化代价函数,以找到最佳的模型参数。

微积分差不多都还回去了

  1. 法一:
    m为样例数目,θ为列向量m为样例数目,\theta为列向量mθ
    hθ(x)=θ0+θ1x+...θnx,J(θ0,θ1...+θn)=12m∑i=1m(hθ(x)(i)−y(i))2h_\theta(x)=\theta_0+\theta_1x+...\theta_nx,J(\theta_0,\theta_1...+\theta_n)=\frac {1}{2m}\sum_{i=1}^m(h_\theta(x)^{(i)}-y^{(i)})^2hθ(x)=θ0+θ1x+...θnxJ(θ0,θ1...+θn)=2m1i=1m(hθ(x)(i)y(i))2δδθjJ(θ0,θ1+...θn)=1m∑i=1m(hθ(i)(x)−y(i))xj(i)(j=0,1,...n)\frac{\delta}{\delta\theta_j}J(\theta_0,\theta_1+...\theta_n)=\frac {1}{m}\sum_{i=1}^m(h_\theta^{(i)}(x)-y^{(i)})x^{(i)}_j(j=0,1,...n)δθjδJ(θ0,θ1+...θn)=m1i=1m(hθ(i)(x)y(i))xj(i)j=01...n其中任意偏导数可表示为1m∑i=1m(hθ(i)(x)y(i))xj(i)=xjT(Xθ−y)其中任意偏导数可表示为\frac {1}{m}\sum_{i=1}^m(h_\theta^{(i)}(x)y^{(i)})x^{(i)}_j=x_j^T(X\theta-y)m1i=1m(hθ(i)(x)y(i))xj(i)=xjT(Xθy)(xj为相应列向量)然后让全部偏导数为0,综合可得到:(x_j为相应列向量)然后让全部偏导数为0,综合可得到:xj0XT∗(Xθ−y)=0X^T*(X\theta-y)=0XT(Xθy)=0XTXθ=XTyX^TX\theta=X^TyXTXθ=XTyθ=(XTX)−1XTy\theta=(X^TX)^{-1}X^Tyθ=(XTX)1XTy

  2. 法二: normal equation 推导思路
    先推导,用例数目m=2时,X=[1x111x12],Y=[y11y12],θ=[θ11θ12]先推导,用例数目m=2时,X=\begin{bmatrix} 1 & x_1^1 \\ 1 & x_1^2 \\ \end{bmatrix},Y= \begin{bmatrix} y_1^1 \\ y_1^2 \\ \end{bmatrix},\theta=\begin{bmatrix} \theta_1^1 \\ \theta_1^2 \\ \end{bmatrix}m=2X=[11x11x12],Y=[y11y12],θ=[θ11θ12]
    hθ(x)=θ0+θ1x,J(θ0,θ1)=12m∑i=1m(hθ(i)(x)−y(i))2h_\theta(x)=\theta_0+\theta_1x,J(\theta_0,\theta_1)=\frac {1}{2m}\sum_{i=1}^m(h_\theta^{(i)}(x)-y^{(i)})^2hθ(x)=θ0+θ1x,J(θ0,θ1)=2m1i=1m(hθ(i)(x)y(i))2将X,Y,θ代入J(θ0,θ1)然后对θ0,θ1分别求偏导数,让将X,Y,\theta代入J(\theta_0,\theta_1)然后对\theta_0,\theta_1分别求偏导数,让X,Y,θJ(θ0,θ1)θ0,θ1 δδθjJ(θ0,θ1)=0(j=0,1)\frac{\delta}{\delta\theta_j}J(\theta_0,\theta_1)=0(j=0,1)δθjδJ(θ0,θ1)=0j=01
    再对两个等式相加,经过整理就会发现,XTXθ=XTy−−>θ=(XTX)−1XTy再对两个等式相加,经过整理就会发现,X^TX\theta=X^Ty-->\theta=(X^TX)^{-1}X^TyXTXθ=XTy>θ=XTX)1XTy
    可想而知,经过推广,m=n时,也可以得出XTXθ=XTy−−>θ=(XTX)−1XTy可想而知,经过推广,m=n时,也可以得出X^TX\theta=X^Ty-->\theta=(X^TX)^{-1}X^Ty广m=nXTXθ=XTy>θ=XTX)1XTy

  3. normal equation vs gradient descent
    正规方程:一步到位,算法复杂度为 O(n3)O(n^3)O(n3) ,所以特征维度<10000时,使用normal equation。
    梯度下降: 选择 α\alphaα 并调试它(很耗时间),多次迭代(很耗时间),特征参数很大时也ok。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值