Linear regression by Bayesian and Frequentist

本文深入探讨了贝叶斯学派与频率学派在处理线性回归问题上的不同视角,贝叶斯方法将参数视为随机变量,通过最大化后验分布进行推断与预测;而频率学派则假设参数固定,使用极大似然估计进行单点估计。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要:概率统计分频率学派(Frequentist)和贝叶斯学派(Bayesian),分别以极大似然估计(Maximum Likelihood Estimation,MLE)和贝叶斯后验估计方法(Bayesian Posterior)为各自特色。贝叶斯方法分为统计推断(inference)和预测(predict)两个阶段。前者假设参数确定的通过极大化似然函数转化为一个函数优化问题,后者将待求参数视为随机变量,先假设参数来自某一概率分布,然后通过最大化待求参数的后验分布(MAP)转化为一个函数优化问题。

1.Notation

先规定一下符号以免混淆,Data:${\{x_i,y_i}\}^N_{i=1}$, $x_i\in{IR}^p$,$x_i^T=(x_{i1},x_{i2},...,x_{ip})$,$x_i$为列向量 $$X=(x_1,x_2,...,x_N)^T =\begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1p}\\ x_{21} & \cdots & \cdots & x_{2p}\\ \vdots & \ddots\\ x_{N1} & \cdots & \cdots & x_{Np} \end{pmatrix}_{N\times p} $$ $$Y=\begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_N \end{pmatrix}$$ $$f(x)=w^Tx=x^Tw$$ $$y=f(x)+\mathcal{E},\mathcal{E}\backsim N(0,\sigma^2)$$

2.Bayesian

贝叶斯视角将待求参数$w$看做随机变量,并且这个随机变量依赖于样本集的,先给一个w的先验分布(这个分布可能是错的,通过样本集来更新这个分布的参数,使得$w$的后验分布变得更加接近其真实的分布,这个过程类似于人类从现实世界学习来不断更新自己的认知经验,使得更加全面准确,是不是很类似?),贝叶斯方法包括推断和预测两个阶段,它的基本框架如下:

2.1 Inference

$$ P(w|Data)=P(w|X,Y)=\frac{P(w,Y|X)}{p(Y|X)} =\frac{P(w,Y|X)}{P(Y|X)} $$ $$ =\frac{P(Y|w,X)P(w)}{\int P(Y|w,X) P(w)\text{d}w}=\frac{likelihood*prior}{Normalization} $$

注意分母上Normalization是一个难以直接计算但是是常量的积分,换个视角看,后验分布也是一个概率分布,只要是概率分布那它的概率密度函数积分应该为1,而分母就起到了归一化的作用。而分子上详细推导:
P ( w , Y ∣ X ) = P ( Y ∣ w , X ) ∗ P ( w ∣ X ) = P ( Y ∣ w , X ) ∗ P ( w ) P(w,Y|X)=P(Y|w,X)*P(w|X)=P(Y|w,X)*P(w) P(w,YX)=P(Yw,X)P(wX)=P(Yw,X)P(w)
然后最大化参数的后验分布:

这里的似然就是一个特殊的概率,只不过换了个称谓,似然值(likelihood)的计算如下:
P ( Y ∣ w , X ) = ∏ i = 1 N P ( y i ∣ w , x i ) = ∏ i = 1 N N ( y i ∣ w T x i , σ 2 ) = 1 ( 2 π ) 1 / 2 σ 1 / 2 exp ⁡ [ − 1 2 σ 2 ( Y − X w ) T ( Y − X w ) ] P(Y|w,X)=\prod_{i=1}^NP(y_i|w,x_i)=\prod_{i=1}^NN(y_i|w^Tx_i,\sigma^2)=\frac{1}{{(2\pi)}^{1/2}{\sigma}^{1/2}}\exp[-\frac{1}{2\sigma^2}(Y-Xw)^T(Y-Xw)] P(Yw,X)=i=1NP(yiw,xi)=i=1NN(yiwTxi,σ2)=(2π)1/2σ1/21exp[2σ21(YXw)T(YXw)]

假设参数 w ∽ N ( 0 , Σ p ) w\backsim N(0,\Sigma_p) wN(0,Σp),参数w的先验分布(prior)也可以表达为:

P ( w ) = N ( 0 , Σ p ) P(w)=N(0,\Sigma_p) P(w)=N(0,Σp)
其中p为参数向量w的维度
整个后验分布就需要求分子部分,具体为:
P ( w ∣ X , Y ) → exp ⁡ [ − 1 2 σ 2 ( Y − X w ) T ( Y − X w ) ] ∗ exp ⁡ ( − 1 2 w T Σ p − 1 w ) P(w|X,Y)\to\exp[-\frac{1}{2\sigma^2}(Y-Xw)^T(Y-Xw)]*\exp(-\frac{1}{2}w^T \Sigma^{ -1}_{p}w) P(wX,Y)exp[2σ21(YXw)T(YXw)]exp(21wTΣp1w)
然后极大化后验分布(类似于MLE中先取对数再对w求导)求得w的后验分布(这里没有详细推导,因为两个高斯分布的联合分布依旧为高斯分布,只需要配凑为高斯分布的形式即可),容易得到:
μ w = σ − 2 A − 1 X T Y \mu_w={\sigma}^{-2}A^{-1}X^TY μw=σ2A1XTY
Σ w = A − 1 \Sigma_w=A^{-1} Σw=A1
其中:
A − 1 = σ − 2 X T X + Σ p − 1 A^{-1}={\sigma}^{-2}X^TX+\Sigma^{-1}_p A1=σ2XTX+Σp1
也可以记为:
w ∣ ( X , Y ) ∽ N ( σ − 2 A − 1 X T Y , A − 1 ) w|(X,Y)\backsim N({\sigma}^{-2}A^{-1}X^TY,A^{-1}) w(X,Y)N(σ2A1XTY,A1)

2.2 Predict

统计推断完成后就可以进行预测,过程如下:给定新的数据$x^{new}$(列向量),要求$f(x^{new})$和$y^{new}$,我们知道$w$是随机变量,那么$f(x)$也是随机变量,那么根据: $$P(f(x^{new})|(X,Y,x^{new}))=N((x^{new})^T\mu_w,(x^{new})^T\Sigma_wx^{new})$$ $$P(y^{new}|(X,Y,x^{new}))=N((x^{new})^T\mu_w,(x^{new})^T\Sigma_wx^{new}+\sigma^2)$$ 也就是说贝叶斯线性回归不仅给出了预测值,还给出了它的概率分布

3. Frequentist

频率学派的视角与贝叶斯派不同,假设参数存在并且为定值,认为当前数据是独立同分布采样得到,获得样本$(x_i,y_i)$的概率$P(x_i,y_i)=P(y_i|x_i)*P(x_i)$,抽到每个样本都是等概率的,因此$P(x_i)$是一样的,那么所有样本的联合分布为: $$P(X,Y)=\prod_{i=1}^NP(y_i,x_i)=P(x_i)^N\prod_{i=1}^NP(y_i|x_i)$$ 频率派的动机就是这个概率是最大的我才能采样得到这个样本集,也就有了下面的极大似然估计。

3.1 MLE

值得注意的是$\theta$是固定的,但也是待求值,先定义关于待求参数$\theta$的似然函数(likelihood function): $$L(\theta)=\prod_{i=1}^NP(y_i|x_i)$$ 又因为$y=f(x)+\mathcal{E},\mathcal{E}\backsim N(0,\sigma^2)$可以继续把似然函数写成表达式: $$L(\theta)=\prod_{i=1}^N\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(y_i-w^Tx_i)^2}{2{\sigma}^2})$$ 对数似然函数: $$l(\theta)=logL(\theta)=Nlog\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{2\sigma^2}\Sigma_{i=1}^N(y_i-w^Tx_i)^2$$ 然后进行求导即可,这也与最小二乘法的损失函数形式几乎一致,有封闭解$w=(X^TX)^{-1}X^TY$。 不难看出,极大似然估计(或者最小二乘法)得到的就是关于参数$w$的单点估计(最可能出现的值),对应于贝叶斯的最大化后验估计的数学期望。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值