因果图模型:部分祖先图与混合祖先图解析
1. 因果图模型的局限性
任何图形模型在描述因果系统时,都不可避免地会遗漏一些有趣的方面。以有向无环图(DAG)为例,它可能会指定 $X → Y$,但 $X → Y$ 所代表的机制却未明确说明。这个机制可能包含未记录变量中的反馈循环,也可能不包含。而且,DAG 或有向循环图(DCG)并未提及原因变量的变化导致结果变量变化所需的时间,而这一特征在理解动态系统时往往非常重要。
同样,模式可以被看作是对各种 DAG 所描述的一类因果过程的描述,也可以看作是对某个特定 DAG 所代表过程的不完整描述。部分有序诱导路径图(POIPG)既可以表示一类(通常是无限的)DAG,也可以不完整地描述一个特定的 DAG。
2. 潜在变量与选择变量
在搜索过程中,数据通常来自于遗漏了因果相关变量的边际分布。在样本中,任何单元都未被观测到的变量被称为潜在变量或隐藏变量,否则就是观测变量。观测数据常常是通过对某个变量进行条件化得到的,例如,我们对住院肺炎患者进行观测。
对于 DAG 中的每个测量变量 $X$,我们关联一个选择变量 $S_X$。对于样本中测量了 $X$ 值的每个单元,$S_X$ 的值为 1,否则为 0。我们不对选择变量之间以及选择变量与其他变量之间的因果关系施加限制。当选择变量与观测(非选择)变量存在因果关系时,就会出现选择偏差。
对于给定的有向图 $G$,将其变量集 $V$ 划分为观测变量($O$)、选择变量($S$)和潜在变量($L$),我们记为 $G(O,S,L)$。当某个单元的所有选择变量都等于 1($S = 1$)时,该单元的测量变量没有缺失数据。如果 $X$、$Y$ 和 $Z$
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



