最小二乘法在回归问题中的应用

最小二乘法在回归问题中的应用

线性回归基础知识

假设我们有样本 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . . . ( x n , y n ) } D =\{(x_1,y_1),(x_2,y_2),.....(x_n,y_n)\} D={(x1,y1),(x2,y2),.....(xn,yn)},其中 x i x_i xi n n n 维向量,也就是第 i i i个样本的 n n n个特征,而 y i y_i yi 就是第 i i i 个样本的取值。我们需要根据已知的 D D D 来构建模型,之后当我们有新的 x n x_n xn 输入时,根据模型就可以得出 y n y_n yn 的预测值。

我们将信息表示的更完整一些:

x i = [ x i 0 x i 1 ⋮ x i n ] x_i = \left[ \begin{matrix}x_{i0}\\x_{i1}\\\vdots\\x_{in}\end{matrix} \right] xi=xi0xi1xin 某一个样本的 n n n 个特征,

我们把 p p p 个样本的集合写作: X = [ x 1 x 2 x 3 ⋯ x p ] T = [ x 11 x 12 x 13 ⋯ x 1 n x 21 x 22 x 23 ⋯ x 2 n ⋮ x p 1 x p 2 x p 3 ⋯ x p n ] X =\left[\begin{matrix}x_1&x_2&x_3&\cdots&x_p\end{matrix}\right]^T =\left[\begin{matrix}x_{11}&x_{12}&x_{13}&\cdots&x_{1n}\\x_{21}&x_{22}&x_{23}&\cdots&x_{2n}\\\vdots\\x_{p1}&x_{p2}&x_{p3}&\cdots&x_{pn}\end{matrix}\right] X=[x1x2x3xp]T=x11x21xp1x12x22xp2x13x23xp3x1nx2nxpn

我们的目标就是找到一组参数 w = [ w 1 w 2 w 3 ⋮ w n ] w =\left[\begin{matrix}w_1\\w_2\\w_3\\\vdots\\w_n\end{matrix}\right] w=w1w2w3wn和一个偏置 b b b (数)

可以得: [ x 11 ∗ w 1 x 12 ∗ w 2 x 13 ∗ w 3 ⋯ x 1 n ∗ w n x 21 ∗ w 1 x 22 ∗ w 2 x 23 ∗ w 3 ⋯ x 2 n ∗ w n ⋮ x p 1 ∗ w 1 x p 2 ∗ w 2 x p 3 ∗ w 3 ⋯ x p n ∗ w n ] + b = [ y 1 − y 2 − y 3 − ⋮ y n − ] \left[\begin{matrix}x_{11}*w_1&x_{12}*w_2&x_{13}*w_3&\cdots&x_{1n}*w_n\\x_{21}*w_1&x_{22}*w_2&x_{23}*w_3&\cdots&x_{2n}*w_n\\\vdots\\x_{p1}*w_1&x_{p2}*w_2&x_{p3}*w_3&\cdots&x_{pn}*w_n\end{matrix}\right] +b=\left[\begin{matrix}\stackrel{-}{y_1}\\\stackrel{-}{y_2}\\\stackrel{-}{y_3}\\\vdots\\\stackrel{-}{y_n}\end{matrix}\right] x11w1x21w1xp1w1x12w2x22w2xp2w2x13w3x23w3xp3w3x1nwnx2nwnxpnwn+b=y1y2y3yn

w w w参数的计算–最小二乘法

最小二乘规定损失函数 L ( w ) = ∑ i = 1 n ∣ w T x i − y i ∣ 2 L(w)=\displaystyle \sum^n_{i=1}|w^Tx_i-y_i|^2 L(w)=i=1nwTxiyi2,我们的目标就是找到 w w w 使得 L ( w ) L(w) L(w) 最小。

那为什么是最小二乘法,而不是三乘法,四乘法呢?

具体的我们可以从几何和概率两个角度来解释。

几何角度

我们来看 X w Xw Xw,是一个向量空间,真实的 Y Y Y 向量不在蓝色的向量空间内,我们需要在蓝色的向量空间内找到一个与 Y Y Y 最相似的向量,而这个向量的 w w w 就是我们要求的参数。

在这里插入图片描述

两个向量的欧式距离越近,说明两个向量越相似,而欧式距离的公式为: ∑ i = 1 n ∣ w T x i − y i ∣ 2 \sqrt{\displaystyle \sum^n_{i=1}|w^Tx_i-y_i|^2} i=1nwTxiyi2 ,为了简化计算,我们算最小距离就是最小平方。

概率角度

我们知道 ϵ = y i − y i − \epsilon = y_i-\stackrel{-}{y_i} ϵ=yiyi ,误差 ϵ \epsilon ϵ 是符合高斯分布的,我们从中心极限定理可知。

∵ ϵ ∼ N ( 0 , σ 2 ) , ϵ = y i − y i − \because\epsilon \sim N(0,\sigma^2), \epsilon = y_i-\stackrel{-}{y_i} ϵN(0,σ2),ϵ=yiyi

∴ y i ∼ N ( y ^ i , σ 2 ) \therefore y_i\sim N(\hat y_i,\sigma^2) yiN(y^i,σ2)

∴ y i ∼ N ( w T x i , σ 2 ) \therefore y_i\sim N(w^Tx_i,\sigma^2) yiN(wTxi,σ2)

我们利用极大似然估计求 w w w

最后可得 a r g m i n ∑ i = 1 N ( y i − w T x i ) 2 argmin\sum_{i=1}^N(y_i - w^Tx_i)^2 argmini=1N(yiwTxi)2

计算 w w w

我们要计算 a r g m i n L ( w ) argmin L(w) argminL(w),对 w w w 求导即可,具体过程建议看b站的https://www.bilibili.com/video/BV1aE411o7qd?p=10&share_source=copy_web,过程非常详细。

如有错误,欢迎指教~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值