贝叶斯非参数方法:原理、应用与优势
1. 贝叶斯非参数概述
在贝叶斯统计的框架下,参数贝叶斯方法有一个 $p$ 维的参数空间 $\Omega$ 以及定义在其上的先验密度 $w$。而模型平均贝叶斯方法则通过使用一系列由 $j \in J$ 索引的模型、每个模型参数空间 $\Omega_j$ 上的先验 $w_j$ 以及跨模型的先验(即定义在 $J$ 上),将结构整合在一起,其整体参数空间为 $(j, \Omega_j)$,其中 $j \in J$。
纯非参数贝叶斯方法是贝叶斯设定的逻辑终点,它从一个集合 $X$ 出发,考虑 $M(X)$,即 $X$ 上所有概率测度的集合(通常为波莱尔 $\sigma$-域)。因此,$M$($X$ 上所有合理概率的集合)就是需要指定先验的集合。若解释变量为随机变量,$M(X)$ 包含了目前讨论的所有模型,不过 $X = \mathbb{R}$ 是研究最多的情况,因为其他更大的概率集合在特殊情况之外难以处理,即 $M(\mathbb{R})$ 是 $\mathbb{R}$ 上所有概率的集合,是研究最为广泛的。
贝叶斯方法的关键步骤是在 $M(X)$ 上定义先验,实际上通常只能指定先验概率,因为密度一般不存在。目前主要有三类先验得到了大量研究,分别是狄利克雷过程先验、波利亚树先验和高斯过程先验,它们对于新数据点的预测表达式最为重要。
2. 狄利克雷过程先验
2.1 狄利克雷分布回顾
狄利克雷分布 $D$ 具有 $k$ 维参数 $(\alpha_1, \ldots, \alpha_k) \in \mathbb{R}^k$,其中 $\alpha_j \geq 0$,其支撑集为 $S_k = {
超级会员免费看
订阅专栏 解锁全文
3万+

被折叠的 条评论
为什么被折叠?



