局部概率模型:CPD 的多种表示与应用
在概率模型的构建中,条件概率分布(CPD)的表示至关重要。它不仅影响着模型的复杂度,还决定了我们能否有效地利用数据中的规律。本文将深入探讨几种常见的 CPD 表示方法,包括表格型 CPD、确定性 CPD 以及上下文特定 CPD,并分析它们的优缺点和应用场景。
1. 表格型 CPD
表格型 CPD 是处理离散随机变量时最直接的表示方法。对于离散空间中的随机变量,我们可以将 $P(X | PaX)$ 编码为一个表格,表格中的每一项对应着 $X$ 和其父母节点 $PaX$ 的一个联合赋值。为了使这个表格成为一个合适的 CPD,需要满足两个条件:一是所有的值都为非负;二是对于 $PaX$ 的每个取值 $paX$,都有 $\sum_{x\in Val(X)} P(x | paX) = 1$。
表格型 CPD 的优点在于其通用性,它可以表示任何可能的离散 CPD,并且在推理算法中能自然地应用。然而,这种表示方法也存在明显的缺点。当随机变量的定义域为无限时,无法将每个可能的条件概率存储在表格中。即使在离散情况下,随着父母节点数量的增加,所需的参数数量会呈指数级增长。例如,一个二元变量 $X$ 有 5 个二元父母节点时,需要指定 $2^5 = 32$ 个值;若有 10 个父母节点,则需要指定 $2^{10} = 1024$ 个值。这使得表格型 CPD 在处理大量父母节点时变得庞大且难以管理。
此外,表格型 CPD 忽略了 CPD 内部的结构。在实际应用中,CPD 中的参数往往存在一定的规律性。例如,在医疗领域中,一个症状(如发烧)可能依赖于多种疾病。如果患者患有某种特定疾病,那么她发烧的概率可能是确定的,而与其他疾病的组合无关。因此,我
超级会员免费看
订阅专栏 解锁全文
5884

被折叠的 条评论
为什么被折叠?



