贝叶斯线性回归
概述
不同于频率派的线性回归Y=ωTX+ω0Y=\omega^TX+\omega_0Y=ωTX+ω0,贝叶斯学派认为ωT\omega^TωT不是一个值固定的常量,而是由输入数据集data决定的一个分布,因此贝叶斯线性回归的预测结果也不是一个固定值,而是一个分布
模型
输入数据集data={(x,y)∣x∈Rp,y∈R}data=\{(x,y)|x\in R^p,y\in R\}data={(x,y)∣x∈Rp,y∈R},定义X,YX,YX,Y之间的映射关系是:
{f(x)=ωTx+ω0y=f(x)+ϵ,(ϵ∼N(0,σ2))\begin{cases} f(x)=\omega^Tx+\omega_0\\y=f(x)+\epsilon,(\epsilon\sim N(0,\sigma^2))\end{cases}{f(x)=ωTx+ω0y=f(x)+ϵ,(ϵ∼N(0,σ2))
其中ϵ\epsilonϵ是服从高斯分布的噪声
推断
根据输入数据集求模型参数ωT\omega^TωT的分布,即P(ωT∣X,Y)P(\omega^T|X,Y)P(ωT∣X,Y)
P(ωT∣X,Y)=P(ωT,X,Y)P(X,Y)=P(Y∣ωT,X)P(ωT∣X)P(X)P(Y,X)=P(Y∣ωT,X)P(ωT,X)P(Y∣X)P(\omega^T|X,Y)={P(\omega^T,X,Y)\over P(X,Y)}={P(Y|\omega^T,X)P(\omega^T|X)P(X)\over P(Y,X)}=\frac {P(Y|\omega^T,X)P(\omega^T,X)}{P(Y|X)}P(ωT∣X,Y)=P(X,Y)P(ωT,X,Y)=P(Y,X)P(Y∣ωT,X)P(ωT∣X)P(X)=P(Y∣X)P(Y∣ωT,X)P(ωT,X)
其中,ωT,X\omega^T,XωT,X并不相关,因此经常简化为P(ωT∣X,Y)=P(Y∣ωT,X)P(ωT)P(Y∣X)P(\omega^T|X,Y)={P(Y|\omega^T,X)P(\omega^T) \over {P(Y|X)}}P(ωT∣X,Y)=P(Y∣X)P(Y∣ωT,X)P(ωT),其中P(Y∣ωT,X)P(Y|\omega^T,X)P(Y∣ωT,X)为似然函数,P(ωT)P(\omega^T)P(ωT)为先验概率,P(ωT∣X,Y)P(\omega^T|X,Y)P(ωT∣X,Y)为后验概率。先验概率通常也指定为高斯分布$P(\omega^T)\sim N(0,\sim \delta^2) ,由模型可知,由模型可知,由模型可知X,\omega^T与与与Y之间是高斯线性关系,则似然函数也服从高斯分布,之间是高斯线性关系,则似然函数也服从高斯分布,之间是高斯线性关系,则似然函数也服从高斯分布,P(Y|X)$是一个定值,又由于高斯分布是自共轭的,所以后验概率也服从高斯分布,通过计算可求出后验概率高斯分布的期望和标准差
预测
即根据输出数据集计算出后验概率之后,根据输入x∗x^*x∗预测y∗y^*y∗的分布
P(y∗∣X,Y,x∗)=∫ωP(y∗∣ω,x∗)P(omega∣X<Y)dωP(y^*|X,Y,x^*)=\int^\omega P(y^*|\omega,x^*)P(omega|X<Y)d\omegaP(y∗∣X,Y,x∗)=∫ωP(y∗∣ω,x∗)P(omega∣X<Y)dω