19、图论与因果理论相关概念及应用解析

最新推荐文章于 2025-11-24 12:43:33 发布

Linux

最新推荐文章于 2025-11-24 12:43:33 发布

阅读量33

点赞数

CC 4.0 BY-SA版权

分类专栏：因果推断：从数据到决策文章标签：图论因果理论 D-分离

本文链接：https://blog.youkuaiyun.com/linux/article/details/152357441

因果推断：从数据到决策专栏收录该内容

19 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

图论与因果理论相关概念及应用解析

1. 基础符号与概念

1.1 符号表示

在图论和相关理论中，有序对通常用尖括号表示，如 <A, B> ，但对于边的端点，为避免尖括号被误读为箭头，使用方括号。在统计学中，部分作者将 “clique” 理解为我们所定义的最大团。同时，我们不考虑一些平凡的独立关系，例如 C ∅ | ∅ ，这类关系依据定义必然成立。

1.2 因果充分性

对于一个总体，变量集合 V 的因果充分性要求：若变量 X 不在 V 中，且是 V 中两个或更多变量的共同原因，那么在总体中 X 取每个值时， V 中所有变量的联合概率都相同。

1.3 因果结构推导

Simon（1953）借助可识别性概念，提出了一种从描述系统的方程组推导因果结构的通用方法。在同一篇论文中，他还基于线性系数扰动下的不变性对因果关系进行了解释。由于变量间的因果关系具有传递性和非自反性，代表因果结构的有向图必须是无环的。若引入循环有向图，则需要进行系统的重新解释。

2. 图论中的重要概念

2.1 路径与连接

Trek ： X 和 Y 之间的 trek 有三种情况：一是从 X 到 Y 的有向路径；二是从 Y 到 X 的有向路径；三是从某个顶点 Z 分别到 X 和 Y 的两条有向路径，且这两条路径仅在 Z 处相交。
D - 分离与连接 ：在有向无环图 G 中，若顶点集 Z 不包含 X 和 Y ，且 X 与 Y 不同，当且仅当不存在从 X 到 Y 的无向路径，使得该路径上的每个对撞节点在 Z 中有后代，且路径上的其他顶点都不在 Det(Z) 中时， X 和 Y 在给定 Z 和 Deterministic(V) 的条件下是 D - 分离的；反之则是 D - 连接的。对于集合 X 、 Y 和 Z ，若它们两两不相交且 X 和 Y 非空，当且仅当 X 和 Y 中每一对变量在给定 Z 和 Deterministic(V) 的条件下都是 D - 分离的， X 和 Y 才是 D - 分离的；否则是 D - 连接的。

2.2 图的映射关系

D - map ：无环图 G 是概率分布 P(V) 的 D - map ，当且仅当对于 V 中任意不相交的随机变量集合 X 、 Y 和 Z ，若在 G 中 X 与 Y 在给定 Z 的条件下不是 D - 分离的，那么在 P(V) 中 X 与 Y 在给定 Z 的条件下也不是独立的。不过，当 D - map 应用于线性因果理论（LCT）中的图时，定义中的量词仅适用于非误差变量集合。
I - map ：有向无环图 G 是概率分布 P(V) 的 I - map ，当且仅当对于 V 中任意不相交的随机变量集合 X 、 Y 和 Z ，若在 G 中 X 与 Y 在给定 Z 的条件下是 D - 分离的，那么在 P(V) 中 X 与 Y 在给定 Z 的条件下是独立的。同样，当 I - map 应用于 LCT 中的图时，定义中的量词仅适用于非误差变量集合。

2.3 线性因果理论相关

线性因果形式（LCF） ：是一种未估计的 LCT ，其中线性系数和外生变量的方差是实变量而非常数。形式上，LCF 可表示为 <<R,M,E>, C, V, EQ,L,Err> ，具体如下：
- <R,M,E> 是有向无环图， Err 是 R 的子集，代表误差变量，每个误差变量的入度为 0 ，出度为 1 。对于 R 中入度不为 0 的每个变量 Xi ，都有一个误差变量指向它。
- cij 是与从 Xj 到 Xi 的边相关联的唯一实变量， C 是所有 cij 的集合。 V 是变量 σi² 的集合，其中 Xi 是 <R,M,E> 中的外生变量， σi² 取值范围为正实数。
- L 是一个定义域为 E 的函数，对于 E 中的每条边 e ，若边的头为 Xi ，尾为 Xj ，则 L(e) = cij 。对于任意无环无向路径 U ，其边标签的乘积记为 L(U) ，空路径的标签固定为 1 。
- EQ 是 R 中变量的一组一致的独立齐次线性方程。对于 R 中入度为正的每个变量 Xi ， EQ 中有一个形如 Xi = ∑(cij * Xj) （ Xj 属于 Parents(Xi) ）的方程， cij 是 Xj 在 Xi 方程中的方程系数。
线性因果理论（LCT） ：可表示为 <<R,M,E>, (Ω,f,P), EQ,L,Err> ，具体内容如下：
- (Ω,f,P) 是一个概率空间，其中 Ω 是样本空间， f 是 Ω 上的 σ - 域， P 是 f 上的概率分布。
- <R,M,E> 是有向无环图， R 是 (Ω,f,P) 上的一组随机变量。
- R 中的变量具有联合分布，且每个变量的方差都不为零。 E 是 R 中变量之间的有向边集合。
- EQ 是 R 中随机变量的一组一致的独立齐次线性方程。对于 R 中入度为正的每个变量 Xi ， EQ 中有一个形如 Xi = ∑(aij * Xj) （ Xj 属于 Parents(Xi) ）的方程， aij 是 Xj 在 Xi 方程中的方程系数。
- 若 R 中的顶点（随机变量） Xi 和 Xj 是外生的，则它们两两统计独立。
- L 是一个定义域为 E 的函数，对于 E 中的每条边 e ，若边的头为 Xi ，尾为 Xj ，则 L(e) = aij 。对于任意无环无向路径 U ，其边标签的乘积记为 L(U) ，空路径的标签固定为 1 。
- R 中有一个子集 S 称为误差变量，每个误差变量的入度为 0 ，出度为 1 。对于任何内生变量 I ，在不包含其误差变量的任何变量集合的条件下，其方差不为零。

2.4 图的操作与变换

操纵（Manipulation） ：在有向无环图 G 中，若变量集合 V 和 W 不相交，且没有从 V 中的变量指向 W 中变量的有向边，则 W 相对于 V 是外生的。若 GComb 是一个有向无环图，且概率分布 P(V ∪ W) 满足 GComb 的马尔可夫条件，那么将 W 的值从 w1 改变为 w2 是对 GComb 相对于 V 的一种操纵，当且仅当 W 相对于 V 是外生的，且 P(V|W = w1) ≠ P(V|W = w2) 。我们定义 PUnman(W)(V) = P(V|W = w1) ， PMan(W)(V) = P(V|W = w2) 。 GComb 称为组合图， GComb 中 V 上的子图称为未操纵图 GUnman 。 V 属于 Manipulated(W) 当且仅当 V 是 W 的子节点且属于 V ，我们称 Manipulated(W) 中的变量被直接操纵。 W 中的变量称为政策变量。操纵后的图 GMan 是 GUnman 的子图，使得 PMan(W)(V) 满足马尔可夫条件，且与 GUnman 的差异最多体现在 Manipulated(W) 中变量的父节点上。
Mod 操作 ：对于有向无环图 G 和包含在 V 中的集合 Z ， G' 在相对于 Deterministic(V) 和 Z 的 Mod 操作下，对于 V 中的每个变量 V ，若存在包含在 Z 中的顶点集合，这些顶点是 V 在 G 中的非后代且能确定 V ，则 Parents(G',V) 是包含在 Z 中的某个顶点集合，这些顶点是 V 在 G 中的非后代且能确定 V ；若不存在这样的顶点集合，则 Parents(G',V) = Parents(G,V) 。

3. 统计相关问题

3.1 搜索算法的可靠性

在某些情况下，由于采用了贪心算法，当一对非相邻变量（如 X 和 Y ）之间存在两条或更多 trek ，导致这些变量之间存在紧密的统计关联时，特定的搜索过程可能在渐近意义下不可靠。例如，在 ALARM 网络中，该过程错误地引入了一条边。不过在实际应用中，这种结构可能并不常见，因此这种误差是可以容忍的。Cooper 及其同事正在研究改善这一问题的技术。

3.2 统计约束的应用

任何统计约束都可以作为算法的输入，只要对于分布和图的任意配对，该约束在分布中满足的条件与图中相应的 d - 分离关系成立的条件一致。

3.3 独立性与相关性问题

对于因果充分的结构，若通过施加与图 G 兼容的线性分布得到的分布 P 暗示了一些 G 未线性暗示的消失偏相关，那么 P 是否不忠实于 G ？反之，若 P 不忠实于 G ， P 是否必然暗示一些 G 未线性暗示的消失偏相关？目前我们尚未找到这两个问题的答案。

3.4 自由度计算

在给定包含零元素的单元格时，似乎还没有精确的通用规则来计算自由度的减少量。

3.5 变量相关性的获取

文章未明确说明潜在变量（如 GPQ 和 ABILITY ）与其他变量（如出版生产率和 QFJ ）之间的相关性是如何得到的。这些相关性可以通过将因子结构作为回归模型来计算每个主题的估计因子得分，或者将潜在变量的协方差包含在一组结构方程的自由参数中，并使用如 LISREL 这样的程序来估计其值。一般来说，这些方法的结果会有所不同。

4. 算法与程序相关

4.1 CI 算法

Thomas Verma 指出了 CI 算法原始表述中的一个错误。

4.2 线性回归中的直接影响

在线性回归中， Xi 对 Y 的 “直接影响” 有多种理解方式：
- （i）在总体的每个成员中，当 Xi 发生单位变化，而其他所有 X 变量保持不变时，变量 Y 的值的变化。
- （ii）在总体中，当 Xi 发生单位变化，而其他所有 X 变量保持不变时， Y 的平均变化。
- （iii）在总体的每个成员中， Xi 发生单位变化时 Y 的变化。
- （iv）在总体中， Xi 发生单位变化时 Y 的平均变化。

在解释（iii）和（iv）下，当 Xi 还影响其他影响 Y 的回归变量时，回归系数是不可靠的估计。若单位是同质的，且随机性质是由抽样引起的，解释（ii）与（i）等价；否则，除了特殊情况（如线性系数作为随机变量是独立分布的），在解释（i）下回归是不可靠的。

4.3 程序与算法

TETRAD 程序 ：最初的 TETRAD 程序没有评分函数，用户需要自行平衡解释原则和证伪原则。我们还实现了一些启发式搜索程序，这些程序理论上的可靠性不如文中描述的程序，但速度更快，在实际应用中的可靠性大致相同。
LISREL 程序 ：LISREL VII 保留了相同的架构，但修改了修改指数。LISREL VI 输出了一些可用于建议对起始模型进行修改的度量，但在自动搜索中并未使用这些度量。
EQS 程序 ：EQS 允许用户指定几种不同类型的搜索，我们仅描述了在蒙特卡罗模拟测试中使用的那种搜索。

4.4 数据处理与参数设置

由于输入到 LISREL 和 EQS 的是伪相关矩阵，而非原始协方差矩阵，因此我们没有向这两个程序提供生成协方差矩阵的原始模型的参数值，而是提供了能生成伪相关矩阵的变换模型的总体参数。具体变换细节见 Spirtes（1990）。为简化计算，我们假设由单个模型生成的所有协方差矩阵的 TETRAD II 输出列表的长度在每种情况下都等于列表的平均长度，在大多数情况下，这是一个相当不错的近似。

5. 悖论与混淆问题

5.1 Simpson 悖论

后续文献将一些关于总体中的独立和依赖关系与子总体中的独立和依赖关系之间的关系问题，以及这些事实的因果意义的问题混淆了。将这些问题混为一谈的不幸之处在于，它们有不同的答案。Colin Blyth（1972）描述了一种现在常被称为 “Simpson 悖论” 的情况，但这与 Simpson 实际提出的问题不同。具体而言，可能同时存在以下情况：
- P(A|B) < P(A|B')
- P(A|BC) ≥ P(A|B'C)
- P(A|BC') ≥ P(A|B'C')

实际上，Simpson 在（1）中取等号，在（2）和（3）中取大于号。

5.2 其他混淆

这些问题的混淆导致了对不同概念和情况的理解困难，我们需要更加清晰地界定和区分这些问题，以准确理解和应用相关理论。

6. 总结

本文围绕图论和因果理论展开，介绍了众多基础概念、理论和实际应用中的问题。从图的表示和操作，到因果结构的推导和统计约束的应用，再到算法和程序的使用以及相关悖论和混淆问题的探讨，我们对图论和因果理论有了更深入的认识。在实际应用中，我们需要注意算法的可靠性、变量相关性的获取方法以及数据处理和参数设置等问题，同时要避免对相关概念和问题的混淆，以确保理论的正确应用和结果的准确性。未来，随着研究的不断深入，我们有望进一步完善这些理论和方法，解决更多实际问题。

下面是一个简单的 mermaid 流程图，展示了操纵图的过程：

graph LR
    A[有向无环图 G] --> B{W 相对于 V 外生?}
    B -- 是 --> C[改变 W 的值从 w1 到 w2]
    C --> D{P(V|W = w1) ≠ P(V|W = w2)?}
    D -- 是 --> E[进行操纵]
    E --> F[得到操纵后的图 GMan]
    B -- 否 --> G[不进行操纵]
    D -- 否 --> G

通过对这些概念和流程的理解，我们可以更好地应用图论和因果理论解决实际问题。

7. 其他相关概念与定义

7.1 图的相关性质与关系

忠实不可区分性 ：两个有向无环图 G 和 G' 是忠实不可区分的（f.i.），当且仅当每个忠实于 G 的分布也忠实于 G' ，反之亦然。
强统计不可区分性 ：两个有向无环图 G 和 G' 是强统计不可区分的，当且仅当它们具有相同的顶点集 V ，并且每个满足 G 的最小性和马尔可夫条件的分布 P 也满足 G' 的这些条件，反之亦然。
刚性统计不可区分性 ：如果有向无环图 G 和 G' 是强统计不可区分的，并且它们的每个平行嵌入也是强统计不可区分的，那么结构 G 和 G' 是刚性统计不可区分的（r.s.i.）。
弱忠实不可区分性 ：两个有向无环图是弱忠实不可区分的（w.f.i.），当且仅当存在一个对它们都忠实的概率分布。
弱统计不可区分性 ：两个有向无环图是弱统计不可区分的（w.s.i.），当且仅当存在一个满足它们的最小性和马尔可夫条件的概率分布。

这些性质和关系有助于我们对不同图结构进行分类和比较，在实际应用中可以根据这些性质判断不同图是否在统计和忠实性上等价。

7.2 图中路径与节点的特殊定义

确定区分路径 ：在部分定向诱导路径图中，对于节点 B ，路径 U 是确定区分路径，当且仅当 U 是 X 和 Y 之间的无向路径且包含 B （ B 不等于 X 和 Y ），并且满足一系列条件，如相邻节点的定向规则、对撞节点的指向规则等。
确定非对撞节点 ：节点 B 是无向路径 U 上的确定非对撞节点，当且仅当 B 是 U 的端点，或者存在节点 A 和 C ，使得 U 包含子路径 A ← B *–* C 、 A *–* B → C 或 A *–* B *–* C 。
确定非后代节点 ：在 FCI 部分定向诱导路径图中， X 是 Y 的确定非后代节点，当且仅当在图中不存在从 Y 的任何成员到 X 的半有向路径。

这些特殊定义的路径和节点在图的分析和推理中具有重要作用，能够帮助我们更精确地描述图的结构和节点之间的关系。

7.3 变量的相关定义

外生变量 ：在有向无环图 G 中，对于变量集合 V 和 W （ V 和 W 不相交）， W 相对于 V 是外生的，当且仅当不存在从 V 中的任何成员到 W 中的任何成员的有向边。
依赖变量 ：在 LCT 或 LCF 中，变量 Xi 是依赖变量，当且仅当 Xi 的入度不为零。
独立变量 ：在 LCT 或 LCF 中，变量 Xi 是独立变量，当且仅当 Xi 的入度为零。需要注意的是，这里的独立性与统计独立性是不同的概念，具体含义需要根据上下文确定。

这些变量的定义明确了变量在图结构和理论中的角色和性质，对于理解因果关系和进行相关计算至关重要。

8. 计算与表示相关概念

8.1 路径形式与分布式形式

路径形式 ：在 LCF 中，协方差乘积 IJ KL 的路径形式是特定表达式的分布式形式。具体来说，设 PXY 是图 G 中从 X 到 Y 的所有有向路径的集合， IJ KL 的路径形式是 (∑(R'∈PUJ) ∑(R∈PUI) ∑(U∈U IJ) (L(R') * L(R) * σ²(U))) * (∑(R'''∈PVL) ∑(R''∈PVK) ∑(V∈U KL) (L(R''') * L(R'') * σ²(V))) 的分布式形式。当 IJ KL - IL JK 的两项都处于路径形式时，我们称其处于路径形式。
分布式形式 ：表达式或方程 E 的分布式形式是对 E 进行所有乘法运算，但不进行加法、减法或除法运算的结果。如果方程中没有除法运算，那么其分布式形式是各项的和。例如，方程 u = (a + b)(c + d)v 的分布式形式是 u = acv + adv + bcv + bdv 。

路径形式和分布式形式在图的计算和表达式处理中具有重要意义，能够帮助我们更清晰地表示和分析图中的关系和计算结果。

8.2 线性表示与线性蕴含

线性表示 ：有向无环图 G 线性表示分布 P(V) ，当且仅当存在一个有向无环图 G' 和分布 P'(V') ，满足一系列条件，如 V 包含于 V' 、 G 是 G' 在 V 上的子图、每个内生变量是其在 G' 中父节点的线性函数等。 V' \ V 中的成员称为误差变量， G' 称为扩展图。
线性蕴含 ：有向无环图 G 线性蕴含 AB.H = 0 ，当且仅当在所有由 G 线性表示的分布中 AB.H = 0 。这里我们假设所有偏相关对于分布都是有定义的。

线性表示和线性蕴含的概念在因果推断和图的分析中用于描述图与分布之间的关系，以及图对变量之间相关性的蕴含关系。

9. 实际应用中的考虑因素

9.1 算法参数与样本大小

在实际应用中，FCI 和 PC 算法通常将显著性水平作为参数。对于样本大小在 100 到 10000 之间的情况，我们假设显著性水平在 0.001 到 0.1 的范围内。合适的显著性水平选择对于算法的准确性和可靠性至关重要，需要根据具体的应用场景和数据特点进行调整。

9.2 图的生成与现实性

在图的生成过程中，我们不确定某些图生成方法是否能产生 “现实” 的图。例如，某些生成方式得到的图可能存在孤立变量，这可能不是我们所期望的。通过对一些图的拓扑结构进行非正式检查，发现其与 Alarm 网络有相似之处。在实际应用中，我们需要考虑图的现实性和合理性，以确保生成的图能够准确反映实际问题。

9.3 变量相关性的计算与处理

在实际研究中，我们可能会遇到潜在变量与其他变量相关性的计算问题。例如，在某些研究中，不清楚潜在变量 GPQ 和 ABILITY 与其他变量（如出版生产率和 QFJ ）的相关性是如何得到的。这些相关性可以通过将因子结构作为回归模型来计算每个主题的估计因子得分，或者将潜在变量的协方差包含在一组结构方程的自由参数中，并使用如 LISREL 这样的程序来估计其值。一般来说，这些方法的结果会有所不同，我们需要根据具体情况选择合适的方法。

10. 总结与展望

10.1 关键概念总结

10.2 流程图总结

下面是一个 mermaid 流程图，总结了图的操作和关系判断的一般流程：

graph LR
    A[有向无环图 G] --> B{判断图的性质}
    B --> C{是否忠实不可区分?}
    C -- 是 --> D[标记为 f.i.]
    C -- 否 --> E{是否强统计不可区分?}
    E -- 是 --> F[标记为强统计不可区分]
    E -- 否 --> G{是否刚性统计不可区分?}
    G -- 是 --> H[标记为 r.s.i.]
    G -- 否 --> I{是否弱忠实不可区分?}
    I -- 是 --> J[标记为 w.f.i.]
    I -- 否 --> K{是否弱统计不可区分?}
    K -- 是 --> L[标记为 w.s.i.]
    K -- 否 --> M[无特殊标记]
    B --> N{是否进行操纵?}
    N -- 是 --> O[进行操纵操作]
    N -- 否 --> P[不进行操纵]

10.3 未来展望

图论和因果理论在众多领域都有广泛的应用前景，但目前仍存在一些问题需要进一步研究和解决。例如，在搜索算法的可靠性方面，虽然 Cooper 及其同事正在研究改善方法，但还需要更深入的探索。在变量相关性的计算和处理上，也需要更准确和有效的方法。未来，我们可以结合更多的实际数据和案例，不断优化和完善这些理论和方法，使其更好地服务于实际问题的解决。同时，随着技术的不断发展，我们可以探索将图论和因果理论与其他领域的知识相结合，开拓新的应用领域和研究方向。