BayesianLR贝叶斯线性回归

本文详细介绍了贝叶斯线性回归的原理,特别是在噪声为高斯分布的情况下。通过引入高斯先验,探讨了如何进行参数的后验分布推断,并展示了如何通过共轭分布简化计算,得到后验参数的高斯分布。进一步讨论了预测过程,给出了解决给定新输入时预测输出的表达式。整个分析揭示了贝叶斯方法在处理线性回归问题时的灵活性和实用性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

贝叶斯线性回归

我们知道,线性回归当噪声为高斯分布的时候,最小二乘损失导出的结果相当于对概率模型应用 MLE,引入参数的先验时,先验分布是高斯分布,那么 MAP的结果相当于岭回归的正则化,如果先验是拉普拉斯分布,那么相当于 Lasso 的正则化。这两种方案都是点估计方法。我们希望利用贝叶斯方法来求解参数的后验分布。

线性回归的模型假设为:
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲f(x)=w^Tx \\y=f…
在贝叶斯方法中,需要解决推断和预测两个问题。

推断

引入高斯先验:
p(w)=N(0,Σp) p(w)=\mathcal{N}(0,\Sigma_p) p(w)=N(0,Σp)
对参数的后验分布进行推断:
p(w∣X,Y)=p(w,Y∣X)p(Y∣X)=p(Y∣w,X)p(w∣X)∫p(Y∣w,X)p(w∣X)dw p(w|X,Y)=\frac{p(w,Y|X)}{p(Y|X)}=\frac{p(Y|w,X)p(w|X)}{\int p(Y|w,X)p(w|X)dw} p(wX,Y)=p(YX)p(w,YX)=p(Yw,X)p(wX)dwp(Yw,X)p(wX)
分母和参数无关,由于 p(w∣X)=p(w)p(w|X)=p(w)p(wX)=p(w),代入先验得到:
p(w∣X,Y)∝∏i=1NN(yi∣wTxi,σ2)⋅N(0,Σp) p(w|X,Y)\propto \prod\limits_{i=1}^N\mathcal{N}(y_i|w^Tx_i,\sigma^2)\cdot\mathcal{N}(0,\Sigma_p) p(wX,Y)i=1NN(yiwTxi,σ2)N(0,Σp)
高斯分布取高斯先验的共轭分布依然是高斯分布,于是可以得到后验分布也是一个高斯分布。第一项:
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲\prod\limits_{i…
代入上面的式子:
p(w∣X,Y)∝exp⁡(−12σ2(Y−Xw)Tσ−2I(Y−Xw)−12wTΣp−1w) p(w|X,Y)\propto\exp(-\frac{1}{2\sigma^2}(Y-Xw)^T\sigma^{-2}\mathbb{I}(Y-Xw)-\frac{1}{2}w^T\Sigma_p^{-1}w) p(wX,Y)exp(2σ21(YXw)Tσ2I(YXw)21wTΣp1w)
假定最后得到的高斯分布为:N(μw,Σw)\mathcal{N}(\mu_w,\Sigma_w)N(μw,Σw)。对于上面的分布,采用配方的方式来得到最终的分布,指数上面的二次项为:
−12σ2wTXTXw−12wTΣp−1w -\frac{1}{2\sigma^2}w^TX^TXw-\frac{1}{2}w^T\Sigma_p^{-1}w 2σ21wTXTXw21wTΣp1w
于是:
Σw−1=σ−2XTX+Σp−1=A \Sigma_w^{-1}=\sigma^{-2}X^TX+\Sigma_p^{-1}=A Σw1=σ2XTX+Σp1=A
一次项:
12σ22YTXw=σ−2YTXw \frac{1}{2\sigma^2}2Y^TXw=\sigma^{-2}Y^TXw 2σ212YTXw=σ2YTXw
于是:
μwTΣw−1=σ−2YTX⇒μw=σ−2A−1XTY \mu_w^T\Sigma_w^{-1}=\sigma^{-2}Y^TX\Rightarrow\mu_w=\sigma^{-2}A^{-1}X^TY μwTΣw1=σ2YTXμw=σ2A1XTY

预测

给定一个 x∗x^*x,求解 y∗y^*y,所以 f(x∗)=x∗Twf(x^*)=x^{*T}wf(x)=xTw,代入参数后验,有 x∗Tw∼N(x∗Tμw,x∗TΣwx∗)x^{*T}w\sim \mathcal{N}(x^{*T}\mu_w,x^{*T}\Sigma_wx^*)xTwN(xTμw,xTΣwx),添上噪声项:
p(y∗∣X,Y,x∗)=∫wp(y∗∣w,X,Y,x∗)p(w∣X,Y,x∗)dw=∫wp(y∗∣w,x∗)p(w∣X,Y)dw=N(x∗Tμw,x∗TΣwx∗+σ2) p(y^*|X,Y,x^*)=\int_wp(y^*|w,X,Y,x^*)p(w|X,Y,x^*)dw=\int_wp(y^*|w,x^*)p(w|X,Y)dw\\ =\mathcal{N}(x^{*T}\mu_w,x^{*T}\Sigma_wx^*+\sigma^2) p(yX,Y,x)=wp(yw,X,Y,x)p(wX,Y,x)dw=wp(yw,x)p(wX,Y)dw=N(xTμw,xTΣwx+σ2)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值