最小二乘法在回归问题中的应用
线性回归基础知识
假设我们有样本 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . . . ( x n , y n ) } D =\{(x_1,y_1),(x_2,y_2),.....(x_n,y_n)\} D={(x1,y1),(x2,y2),.....(xn,yn)},其中 x i x_i xi 是 n n n 维向量,也就是第 i i i个样本的 n n n个特征,而 y i y_i yi 就是第 i i i 个样本的取值。我们需要根据已知的 D D D 来构建模型,之后当我们有新的 x n x_n xn 输入时,根据模型就可以得出 y n y_n yn 的预测值。
我们将信息表示的更完整一些:
x i = [ x i 0 x i 1 ⋮ x i n ] x_i = \left[ \begin{matrix}x_{i0}\\x_{i1}\\\vdots\\x_{in}\end{matrix} \right] xi=⎣⎢⎢⎢⎡xi0xi1⋮xin⎦⎥⎥⎥⎤ 某一个样本的 n n n 个特征,
我们把 p p p 个样本的集合写作: X = [ x 1 x 2 x 3 ⋯ x p ] T = [ x 11 x 12 x 13 ⋯ x 1 n x 21 x 22 x 23 ⋯ x 2 n ⋮ x p 1 x p 2 x p 3 ⋯ x p n ] X =\left[\begin{matrix}x_1&x_2&x_3&\cdots&x_p\end{matrix}\right]^T =\left[\begin{matrix}x_{11}&x_{12}&x_{13}&\cdots&x_{1n}\\x_{21}&x_{22}&x_{23}&\cdots&x_{2n}\\\vdots\\x_{p1}&x_{p2}&x_{p3}&\cdots&x_{pn}\end{matrix}\right] X=[x1x2x3⋯xp]T=⎣⎢⎢⎢⎡x11x21⋮xp1x12x22xp2x13x23xp3⋯⋯⋯x1nx2nxpn⎦⎥⎥⎥⎤
我们的目标就是找到一组参数 w = [ w 1 w 2 w 3 ⋮ w n ] w =\left[\begin{matrix}w_1\\w_2\\w_3\\\vdots\\w_n\end{matrix}\right] w=⎣⎢⎢⎢⎢⎢⎡w1w2w3⋮wn⎦⎥⎥⎥⎥⎥⎤和一个偏置 b b b (数)
可以得: [ x 11 ∗ w 1 x 12 ∗ w 2 x 13 ∗ w 3 ⋯ x 1 n ∗ w n x 21 ∗ w 1 x 22 ∗ w 2 x 23 ∗ w 3 ⋯ x 2 n ∗ w n ⋮ x p 1 ∗ w 1 x p 2 ∗ w 2 x p 3 ∗ w 3 ⋯ x p n ∗ w n ] + b = [ y 1 − y 2 − y 3 − ⋮ y n − ] \left[\begin{matrix}x_{11}*w_1&x_{12}*w_2&x_{13}*w_3&\cdots&x_{1n}*w_n\\x_{21}*w_1&x_{22}*w_2&x_{23}*w_3&\cdots&x_{2n}*w_n\\\vdots\\x_{p1}*w_1&x_{p2}*w_2&x_{p3}*w_3&\cdots&x_{pn}*w_n\end{matrix}\right] +b=\left[\begin{matrix}\stackrel{-}{y_1}\\\stackrel{-}{y_2}\\\stackrel{-}{y_3}\\\vdots\\\stackrel{-}{y_n}\end{matrix}\right] ⎣⎢⎢⎢⎡x11∗w1x21∗w1⋮xp1∗w1x12∗w2x22∗w2xp2∗w2x13∗w3x23∗w3xp3∗w3⋯⋯⋯x1n∗wnx2n∗wnxpn∗wn⎦⎥⎥⎥⎤+b=⎣⎢⎢⎢⎢⎢⎢⎢⎡y1−y2−y3−⋮yn−⎦⎥⎥⎥⎥⎥⎥⎥⎤
w w w参数的计算–最小二乘法
最小二乘规定损失函数 L ( w ) = ∑ i = 1 n ∣ w T x i − y i ∣ 2 L(w)=\displaystyle \sum^n_{i=1}|w^Tx_i-y_i|^2 L(w)=i=1∑n∣wTxi−yi∣2,我们的目标就是找到 w w w 使得 L ( w ) L(w) L(w) 最小。
那为什么是最小二乘法,而不是三乘法,四乘法呢?
具体的我们可以从几何和概率两个角度来解释。
几何角度
我们来看 X w Xw Xw,是一个向量空间,真实的 Y Y Y 向量不在蓝色的向量空间内,我们需要在蓝色的向量空间内找到一个与 Y Y Y 最相似的向量,而这个向量的 w w w 就是我们要求的参数。
两个向量的欧式距离越近,说明两个向量越相似,而欧式距离的公式为: ∑ i = 1 n ∣ w T x i − y i ∣ 2 \sqrt{\displaystyle \sum^n_{i=1}|w^Tx_i-y_i|^2} i=1∑n∣wTxi−yi∣2 ,为了简化计算,我们算最小距离就是最小平方。
概率角度
我们知道 ϵ = y i − y i − \epsilon = y_i-\stackrel{-}{y_i} ϵ=yi−yi− ,误差 ϵ \epsilon ϵ 是符合高斯分布的,我们从中心极限定理可知。
∵ ϵ ∼ N ( 0 , σ 2 ) , ϵ = y i − y i − \because\epsilon \sim N(0,\sigma^2), \epsilon = y_i-\stackrel{-}{y_i} ∵ϵ∼N(0,σ2),ϵ=yi−yi−
∴ y i ∼ N ( y ^ i , σ 2 ) \therefore y_i\sim N(\hat y_i,\sigma^2) ∴yi∼N(y^i,σ2)
∴ y i ∼ N ( w T x i , σ 2 ) \therefore y_i\sim N(w^Tx_i,\sigma^2) ∴yi∼N(wTxi,σ2)
我们利用极大似然估计求 w w w
最后可得 a r g m i n ∑ i = 1 N ( y i − w T x i ) 2 argmin\sum_{i=1}^N(y_i - w^Tx_i)^2 argmin∑i=1N(yi−wTxi)2
计算 w w w
我们要计算 a r g m i n L ( w ) argmin L(w) argminL(w),对 w w w 求导即可,具体过程建议看b站的https://www.bilibili.com/video/BV1aE411o7qd?p=10&share_source=copy_web,过程非常详细。
如有错误,欢迎指教~