Gibbs sampling & R

本文详细介绍了Gibbs抽样的概念及其在R中的实现方法,包括如何使用Gibbs抽样模拟二元正态分布,并通过实际代码展示了模拟过程及效果。此外,还提供了多种资源供进一步学习。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Gibbs sampling & R

分类: R 统计计算statistical computing 抽样、模拟、实验设计   404人阅读  评论(0)  收藏  举报

维基百科的定义:http://en.wikipedia.org/wiki/Gibbs_sampling

我们假设一个随机的二元变量(x,y),然后计算其中一个或全部的边缘分布p(x),p(y)。这种抽样思想是考虑条件分布p(xly),p(ylx),比通过联合密度
p(xy)来计算求解简单,例如


首先,我们要进行初始化y0,然后通过条件概率P(xIy=y0)计算得出x0,然后再基于x0的条件分布p(ylx=x0)提取出一个更新后的y1。样本的更新过程是这样的:

,


重复该过程,可以生成一个GIBBS序列,其算法可抽象为:

例如:模拟一个(x,y)二元正态分布,该分布的一个边际分布为标准正态分布x~N(0,1),x,y间的相关系数记为r。

我们利用Gibbs抽样进行模拟:

[html]  view plain copy
  1. gibbs<-function (n, r)   
  2. {  
  3.         mat <- matrix(ncol = 2nrow = n)  
  4.         x <- 0  
  5.         y <- 0  
  6.         mat[1, ] <- c(x, y)  
  7.         for (i in 2:n) {  
  8.                 x <- rnorm(1, r * y, sqrt(1 - r^2))  
  9.                 y <- rnorm(1, r * x, sqrt(1 - r^2))  
  10.                 mat[i, ] <- c(x, y)  
  11.         }  
  12.         mat  
  13. }  
  14. bvn<-gibbs(10000,0.98)  

当然这个例子也可以直接模拟服从标准正态分布的边际分布x,再利用条件分布y|x进行模拟

[html]  view plain copy
  1. rbvn<-function (n, r)   
  2. {  
  3.         x <- rnorm(n, 0, 1)  
  4.         y <- rnorm(n, r * x, sqrt(1 - rho^2))  
  5.         cbind(x, y)  
  6. }  
  7. bvn<-rbvn(10000,0.98)  

可以通过作图来看看两种模拟的效果

[html]  view plain copy
  1. par(mfrow=c(3,2))  
  2. plot(bvn,col=1:10000)  
  3. plot(bvn,type="l")  
  4. plot(ts(bvn[,1]))  
  5. plot(ts(bvn[,2]))  
  6. hist(bvn[,1],40)  
  7. hist(bvn[,2],40)  
  8. par(mfrow=c(1,1))  

结果如图



 

资料来源:

《基于网络的可适应Gibbs抽样方法研究》

http://www.mas.ncl.ac.uk/~ndjw1/teaching/sim/gibbs/gibbs.html

 

更多例子:

a.demo for one-way random effects model.

http://www.stat.sc.edu/~grego/courses/stat740/gibbs.1wayre.txt

b.simple Gibbs sampler class demonstration.

http://www.stat.sc.edu/~grego/courses/stat740/NWK1732.txt

 

更多资源

《Introduction to Probability Simulation and Gibbs Sampling With R》

《Bayesian Computation With R》

《Introducing Monte Carlo Methods with R (Use R)》


### 吉布斯采样中的后验分布计算 在吉布斯采样过程中,后验分布的计算依赖于已知数据和其他参数条件下各个变量的条件分布。对于多维空间中的目标分布 \( p(\mathbf{x}) \),其中 \(\mathbf{x}=(x_1, x_2,\ldots,x_D)\),为了能够有效地应用吉布斯采样,必须满足的第一个标准是每个维度上的变量在其余所有变量给定时具有解析形式的条件分布[^5]。 具体来说,在每次迭代中,依次更新向量\(\mathbf{x}\)中的每一个分量\(x_i\),而保持其他的分量不变。此时,新的样本是从条件分布\[p(x_i|x_{-i},y)=\frac{p(x_1,...,x_D,y)}{\int p(x_1,...,x_D,y)dx_i}\] 中抽取出来的,这里\(x_{-i}\)表示除了第\(i\)个位置外的所有元素组成的子集;\(y\)代表观测到的数据。 当涉及到具体的模型比如贝叶斯线性回归时,假设存在响应变量\(y\)以及预测因子矩阵\(\mathbf{X}\),并且考虑三个主要参数:截距项\(\beta_0\)、斜率系数\(\beta_1\) 和噪声精度\(\tau\)。那么针对这些参数的条件后验可以分别推导如下: #### 对于\(\beta_0\) (截距) 假定先验为正态分布,则其全条件后验也将服从正态分布,均值和方差可以通过完成平方来获得: \[p(\beta_0|\cdot )=\text{Normal}(m_{\beta_0},v_{\beta_0})\] 其中, \[ m_{\beta_0}=v_{\beta_0}\sum (\tau(y-\mathbf{X}\beta)) \] \[ v_{\beta_0}=(N\tau+\lambda)^{-1} \] 这里的\(\lambda\) 是来自先验分布的超参[^4]。 #### 对于\(\beta_1\) (斜率) 同样地,如果采用共轭先验(例如高斯),则可以根据似然函数与先验构建对应的条件后验分布,并通过适当变换求得精确解。 #### 对于\(\tau\) (噪音精度) 通常情况下会选用伽玛分布作为\(\tau\) 的先验,因此它的条件后验也会是一个伽玛分布的形式,可以直接利用充分统计量来进行高效抽样。 综上所述,实际操作中需要根据具体情况设定合适的先验并依据上述原则逐步推出各未知参数的具体条件后验表达式,进而实施有效的吉布斯采样过程。 ```python import numpy as np from scipy.stats import norm, gamma def gibbs_sampling(X, y, iterations=1000): N = len(y) beta_0_prior_mean = 0 beta_0_prior_var = 1e6 alpha_tau = 2 beta_tau = 1 samples = [] # Initialize parameters beta_0 = 0 beta_1 = 0 tau = 1 for _ in range(iterations): # Sample from full conditional of beta_0 var_beta_0 = 1 / ((N * tau) + (1 / beta_0_prior_var)) mean_beta_0 = var_beta_0 * sum(tau * (y - X @ beta_1)) beta_0 = norm.rvs(loc=mean_beta_0, scale=np.sqrt(var_beta_0)) # Update other variables similarly... samples.append((beta_0, beta_1, tau)) return np.array(samples) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值