- 1.Notation
- 2.Bayesian Linear regression
- 2.1 Inference
- 2.2 Prediction
- 3.Frequentist Linear regression
- 3.1 MLE
摘要:概率统计分频率学派(Frequentist)和贝叶斯学派(Bayesian),分别以极大似然估计(Maximum Likelihood Estimation,MLE)和贝叶斯后验估计方法(Bayesian Posterior)为各自特色。贝叶斯方法分为统计推断(inference)和预测(predict)两个阶段。前者假设参数确定的通过极大化似然函数转化为一个函数优化问题,后者将待求参数视为随机变量,先假设参数来自某一概率分布,然后通过最大化待求参数的后验分布(MAP)转化为一个函数优化问题。
1.Notation
先规定一下符号以免混淆,Data:${\{x_i,y_i}\}^N_{i=1}$, $x_i\in{IR}^p$,$x_i^T=(x_{i1},x_{i2},...,x_{ip})$,$x_i$为列向量 $$X=(x_1,x_2,...,x_N)^T =\begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1p}\\ x_{21} & \cdots & \cdots & x_{2p}\\ \vdots & \ddots\\ x_{N1} & \cdots & \cdots & x_{Np} \end{pmatrix}_{N\times p} $$ $$Y=\begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_N \end{pmatrix}$$ $$f(x)=w^Tx=x^Tw$$ $$y=f(x)+\mathcal{E},\mathcal{E}\backsim N(0,\sigma^2)$$2.Bayesian
贝叶斯视角将待求参数$w$看做随机变量,并且这个随机变量依赖于样本集的,先给一个w的先验分布(这个分布可能是错的,通过样本集来更新这个分布的参数,使得$w$的后验分布变得更加接近其真实的分布,这个过程类似于人类从现实世界学习来不断更新自己的认知经验,使得更加全面准确,是不是很类似?),贝叶斯方法包括推断和预测两个阶段,它的基本框架如下:2.1 Inference
$$ P(w|Data)=P(w|X,Y)=\frac{P(w,Y|X)}{p(Y|X)} =\frac{P(w,Y|X)}{P(Y|X)} $$ $$ =\frac{P(Y|w,X)P(w)}{\int P(Y|w,X) P(w)\text{d}w}=\frac{likelihood*prior}{Normalization} $$注意分母上Normalization是一个难以直接计算但是是常量的积分,换个视角看,后验分布也是一个概率分布,只要是概率分布那它的概率密度函数积分应该为1,而分母就起到了归一化的作用。而分子上详细推导:
P
(
w
,
Y
∣
X
)
=
P
(
Y
∣
w
,
X
)
∗
P
(
w
∣
X
)
=
P
(
Y
∣
w
,
X
)
∗
P
(
w
)
P(w,Y|X)=P(Y|w,X)*P(w|X)=P(Y|w,X)*P(w)
P(w,Y∣X)=P(Y∣w,X)∗P(w∣X)=P(Y∣w,X)∗P(w)
然后最大化参数的后验分布:
这里的似然就是一个特殊的概率,只不过换了个称谓,似然值(likelihood)的计算如下:
P
(
Y
∣
w
,
X
)
=
∏
i
=
1
N
P
(
y
i
∣
w
,
x
i
)
=
∏
i
=
1
N
N
(
y
i
∣
w
T
x
i
,
σ
2
)
=
1
(
2
π
)
1
/
2
σ
1
/
2
exp
[
−
1
2
σ
2
(
Y
−
X
w
)
T
(
Y
−
X
w
)
]
P(Y|w,X)=\prod_{i=1}^NP(y_i|w,x_i)=\prod_{i=1}^NN(y_i|w^Tx_i,\sigma^2)=\frac{1}{{(2\pi)}^{1/2}{\sigma}^{1/2}}\exp[-\frac{1}{2\sigma^2}(Y-Xw)^T(Y-Xw)]
P(Y∣w,X)=i=1∏NP(yi∣w,xi)=i=1∏NN(yi∣wTxi,σ2)=(2π)1/2σ1/21exp[−2σ21(Y−Xw)T(Y−Xw)]
假设参数 w ∽ N ( 0 , Σ p ) w\backsim N(0,\Sigma_p) w∽N(0,Σp),参数w的先验分布(prior)也可以表达为:
P
(
w
)
=
N
(
0
,
Σ
p
)
P(w)=N(0,\Sigma_p)
P(w)=N(0,Σp)
其中p为参数向量w的维度
整个后验分布就需要求分子部分,具体为:
P
(
w
∣
X
,
Y
)
→
exp
[
−
1
2
σ
2
(
Y
−
X
w
)
T
(
Y
−
X
w
)
]
∗
exp
(
−
1
2
w
T
Σ
p
−
1
w
)
P(w|X,Y)\to\exp[-\frac{1}{2\sigma^2}(Y-Xw)^T(Y-Xw)]*\exp(-\frac{1}{2}w^T \Sigma^{ -1}_{p}w)
P(w∣X,Y)→exp[−2σ21(Y−Xw)T(Y−Xw)]∗exp(−21wTΣp−1w)
然后极大化后验分布(类似于MLE中先取对数再对w求导)求得w的后验分布(这里没有详细推导,因为两个高斯分布的联合分布依旧为高斯分布,只需要配凑为高斯分布的形式即可),容易得到:
μ
w
=
σ
−
2
A
−
1
X
T
Y
\mu_w={\sigma}^{-2}A^{-1}X^TY
μw=σ−2A−1XTY
Σ
w
=
A
−
1
\Sigma_w=A^{-1}
Σw=A−1
其中:
A
−
1
=
σ
−
2
X
T
X
+
Σ
p
−
1
A^{-1}={\sigma}^{-2}X^TX+\Sigma^{-1}_p
A−1=σ−2XTX+Σp−1
也可以记为:
w
∣
(
X
,
Y
)
∽
N
(
σ
−
2
A
−
1
X
T
Y
,
A
−
1
)
w|(X,Y)\backsim N({\sigma}^{-2}A^{-1}X^TY,A^{-1})
w∣(X,Y)∽N(σ−2A−1XTY,A−1)