从概率角度来看线性回归
从机器学习的角度看,线性回归需要通过一个函数建模 x , y x,y x,y之间的关系;而从概率的角度看,则是要表示出在给定 x x x下随机变量 y y y的条件概率。
但通常 y y y是一个定值,为了计算 y y y在给定 x x x下的条件概率 p ( y ∣ x ) p(y|x) p(y∣x),首先要将 y y y看作一个随机变量。可以先用一个函数表示出一个连续函数,在对该函数进行采样时添加一个服从均值为0方差为 σ 2 \sigma^2 σ2的噪声 ϵ \epsilon ϵ,最后得到连续随机变量 y y y的概率密度函数:
y = f ( x , w ) + ϵ , ϵ ∈ ( 0 , σ 2 ) y=f(x,w)+\epsilon, \ \ \epsilon\in(0,\sigma^2) y=f(x,w)+ϵ, ϵ∈(0,σ2)
对线性回归来说, f ( x , w ) = w T x f(x,w)=w^Tx f(x,w)=wTx,于是 y = w T x + ϵ y=w^Tx+\epsilon y=wTx+ϵ,移项得 ϵ = y − w T x \epsilon=y-w^Tx ϵ=y−wTx,由于 ϵ \epsilon ϵ服从高斯分布,它的概率分布函数为:
p ( ϵ ; 0 , σ 2 ) = 1 2 π σ exp ( − ( ϵ − 0 ) 2 2 σ 2 ) = 1 2 π σ exp ( − ( ϵ ) 2 2 σ 2 ) p(\epsilon;0,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}\exp{(-\frac{(\epsilon-0)^2}{2\sigma^2})}=\frac{1}{\sqrt{2\pi}\sigma}\exp{(-\frac{(\epsilon)^2}{2\sigma^2})} p(ϵ;0,σ2)=2πσ1exp(−2σ2(ϵ−0)2)=2πσ1exp(−2σ2(ϵ)2)
将 ϵ = y − w T x \epsilon=y-w^Tx ϵ=y−wTx带入上式1可得给定 x x x下 y y y的条件概率:
p ( y ∣ x ; w , σ ) = N ( y ; w T x , σ 2 ) = 1 2 π σ exp ( − ( y − w T x ) 2 2 σ 2 ) p(y|x;w,\sigma)=\mathcal{N}(y;w^Tx,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}\exp{(-\frac{(y-w^Tx)^2}{2\sigma^2})} p(y∣x;w,σ)=N(y;wTx,σ2)=2πσ1exp(−2σ2(y−wTx)2)
这样也可以说 y y y是满足均值为 w T x w^Tx wTx,方差为 σ 2 \sigma^2 σ2的高斯分布,即 y ∈ N ( w T x , σ 2 ) y\in\mathcal{N}(w^Tx, \sigma^2) y∈N(wTx,σ2)。由此得出待优化模型。
似然函数(Likehood)
对于 p ( x ; w ) p(x;w) p(x;w)来说,概率是指在参数 w w w固定的情况下,随机变量 x x x的概率分布,即将随机变量 x x x看作自变量。而与概率相反,似然指已知随机变量 x x x的情况下,不同参数 w w w的取值对随机变量 x x x取值分布的影响,即将参数 w w w看作自变量。
对于线性回归,参数 w w w在训练集 D D D上的似然函数为:
p ( y ∣ X ; w , σ ) = ∏ n = 1 N p ( y ( n ) ∣ x ( n ) ; w , σ ) = ∏ n = 1 N N ( y ( n ) ; w T x ( n ) , σ 2 ) p(y|X;w,\sigma)=\prod_{n=1}^Np(y^{(n)}|x^{(n)};w,\sigma)=\prod_{n=1}^N\mathcal{N}(y^{(n)};w^Tx^{(n)},\sigma^2) p(y∣X;w,σ)=n=1∏Np(y(n)∣x(n);w,σ)=n=1∏NN(y(n);wTx(n),σ2)
要特别注意其中的自变量是 w w w。此外, y = [ y ( 1 ) ⋮ y ( n ) ] y=\begin{bmatrix}y^{(1)}\\\vdots\\y^{(n)}\end{bmatrix} y=
y(1)⋮y(n)
, X = [ x ( 1 ) x ( 2 ) ⋯ x ( n ) ] X=\begin{bmatrix}x^{(1)}&x^{(2)}&\cdots&x^{(n)}\end{bmatrix} X=[x(1)x(2)⋯x(n)] ,由于 y y y和 X X X独立同分布2(这里是默认 X X X也服从高斯分布),因此整体的似然函数可以分解为每个样本似然函数的连乘。
最大似然估计(Maximum Likelihood Estimate,MLE)
有了似然函数之后,需要通过一个准则来优化似然函数中的参数 w w w,使得似然函数最大,这个过程就是最大似然估计,即找到一组参数 w w w使得似然函数 p ( y ∣ X ; w , σ ) p(y|X;w,\sigma) p(y∣X;w,σ)最大。
同时,对于指数型的似然函数( e e e的n次方,即 exp \exp exp),通常还会在计算偏导数时加上 log \log log(这里的 log \log log只是表明是对数函数,不单独指以某个值为底数)转换成对数型的似然函数,转换成对数函数之后,在求偏导数时就能将连乘( ∏ \prod ∏)转换为连加( ∑ \sum ∑),方便下一步计算。同时,由于 exp ( x ) \exp(x) exp(x)和 ln x \ln^x lnx都单调递增,所以二者的复合仍单调递增(同增异减),函数单调性不变,因此极值点不变。
∂ log p ( y ∣ X ; w , σ ) ∂ w = ∂ ∂ w log ( p ( y ( 1 ) ∣ x ( 1 ) ; w , σ ) ⋅ p ( y ( 1 ) ∣ x ( 2 ) ; w , σ ) ⋯ p ( y ( N ) ∣ x ( N ) ; w , σ ) ) = ∂ ∂ w ( log p ( y ( 1 ) ∣ x ( 1 ) ; w , σ ) + log p ( y ( 1 ) ∣ x ( 2 ) ; w , σ ) + ⋯ + log p ( y ( N ) ∣ x ( N ) ; w , σ ) ) ) (假设以 e 为底求导,其他可以参考导数表) = 1 p ( y ( 1 ) ∣ x ( 1 ) ; w , σ ) ∂ p ( y ( 1 ) ∣ x ( 1 ) ; w , σ ) ∂ w + ⋯ + 1 p ( y ( N ) ∣ x ( N ) ; w , σ ) ∂ p ( y ( N ) ∣ x ( N ) ; w , σ ) ∂ w = ∑ n = 1 N 1 p ( y ( n ) ∣ x ( n ) ; w , σ ) ∂ p ( y ( n ) ∣ x ( n ) ; w , σ ) ∂ w = 2 π σ 1 2 π σ ∑ n = 1 N 1 exp ( − ( y ( n ) − w T x ( n ) ) 2 2 σ 2 ) ∂ ∂ w exp ( − ( y ( n ) − w T x ( n ) ) 2 2 σ 2 ) = − ∑ n = 1 N 1 exp ( − ( y ( n ) − w T x ( n ) ) 2 2 σ 2 ) exp ( − ( y ( n ) − w T x ( n ) ) 2 2 σ 2 ) ∂ ∂ w ( ( y ( n ) − w T x ( n ) ) 2 2 σ 2 ) = − ∑ n = 1 N 1 exp ( − ( y ( n ) − w T x ( n ) ) 2 2 σ 2 ) exp ( − ( y ( n ) − w T x ( n ) ) 2 2 σ 2 ) ( − 2 ( x ( n ) ) T ( y ( n ) − w T x ( n ) ) 2 σ 2 ) = ∑ n = 1 N 1 exp ( − ( y ( n ) − w T x ( n ) ) 2 2 σ 2 ) exp ( − ( y ( n ) − w T x ( n ) ) 2 2 σ 2 ) ( ( x ( n ) ) T ( y ( n ) − w T x ( n ) ) σ