Bayesian Networks ——Stanford CS228-优快云博客

本文链接：https://blog.youkuaiyun.com/Formlsl/article/details/82053318

博客围绕贝叶斯网络展开，介绍其是一种用少量参数参数化概率分布的技术，通过有向无环图描述因果模型。阐述了基于BN的概率模型、图表示、形式化定义，分析了贝叶斯网络的依赖性，介绍有向图独立性描述及表示力量，还提及d - separation等内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Bayesian Networks

学习一个有效广泛的技术用来参数化概率分布仅仅用少量的参数。
通过有向无环图(ＤＡＧs)来描述因果模型。
研究模型假设和ＤＡＧ结构之间的关联；不仅模型假设要很清楚，而且应该设计更有效的推断算法。
在下一节，将研究无向图，也被称之为Markov random fields。

基于ＢＮ的概率模型

有向图模型是使用简洁的参数的概率分布家族。

链式法则：
这里写图片描述
链式法则一般依赖的较多的其他变量。

所以一个简洁的贝叶斯网络既是一个分布仅仅依赖几个数量的祖先变量$x_{Ai}$: 这里写图片描述

当变量是离散的，假如每个变量能取d个值，一个共ｋ个祖先，所以Ｎ个变量有$O(nd^{k+1})$参数。

图表示

分布被表示有向无环图，图的顶点代表变量$x_{i}$，边代表依赖关系,记$x_{A_{i}}$为$x_{i}$的祖先。举个例子：ｇ是学生的成绩，d是成绩的困难程度，i是学生的智商，ｓ是ＳＡＴ分数，ｌ取决于教课老师的水平，除了ｇ之外都是二值变量，ｇ有三个变量值。那么联合分布为
这里写图片描述

这里写图片描述

这个图比较明显的显示数据的产生过程。

形式化定义－ｆormal definition

贝叶斯网络是有向无环Ｇ=(V,E)

随机变量x_{i}为图的顶点
对于每个顶点条件概率分布(ＣPD)，依赖于他们的父节点。

所以贝叶斯网络就是用来定义一个概率分布。

贝叶斯网络的依赖性（The dependencies of a Bayes net）

我们已经知道贝叶斯网络是用来表示一个分布的，用形式模型来表示非依赖。那种贝叶斯网络结构能够表达出来非独立性？记I(p)表示的事联合分布的变量是否独立。即如果p(x,y)=p(x)p(y),然后我们有$x \bot y\in I(p)$

基于有向图独立性描述（independencies decribed by directed graphs）

三种结构描述图的独立性。

公共父节点。　结构一A<-Ｂ->C, 如果Ｂ是被观察节点，$(A \bot C)|B$;如果B不是观察节点，则$Ａnot \bot B$，因为Ａ和Ｃ是和Ｂ有关联的。
层级状。结构二Ａ->B->C,如果Ｂ是被观察节点，$(A \bot C)|B$;同样果B不是观察节点，则$Ａnot \bot B$，因为Ａ和Ｃ是和Ｂ有关联的。
Ｖ型。结构Ａ->C<-B.如果C不是被观察节点，$(A \bot B)$;如果C是观察节点，则$Ａnot \bot B|C$，因为Ａ和B是和C有关联的。

我们接下来将扩展这三种结构通过递归的。

当变量O被观测，如果集合Ｑ，W，O是没有链接的通过active path,则说明ＱＷ是d分的（d-separated).　active path,满足下面一个条件：

x<-Y<-Z，Ｙ不是被观测变量，$Y\notin O$;
x->Y->Z,Ｙ不是被观测变量，$Y\notin O$;
x<-Y->Z,Ｙ不是被观测变量，$Y\notin O$;
x->U<-Z,Y是所有节点的子孙，并且是观测变量;

d-separation 用处在于描述网络的依赖。$Ｉ(G)=X\bot Y|Z:X,Y$是可ｄ-分在Ｚ条件下}

定理：如果p是Ｇ的因子，然后$I(G)\subseteq I(p)$，在这种情况下，我们说Ｇ是Ｉ-map对于ｐ.

换句话说，就是所有的独立性编码在G上：如果变量是d-可分，那么这些是独立的。但是，一个分布能通过Ｇ因式分解，但是独立性可能存在不能完全被Ｇ捕捉。举个例子，p(x,y)=p(x)p(y),然后这个分布也能表示为y->x。由于我们常常表示p(x,y)=p(x|y)p(y),CPD p(x|y)。所以我们重构一个图来搭配去除没有必要的边。