【因果推断与机器学习】Causal Inference: Chapter_2

本文深入探讨了因果图在建模因果机制和假设中的重要性，强调了外部知识在因果推理中的角色。介绍了因果图的基本元素，如节点和有向边，并解释了它们如何编码因果关系。因果图通过描述节点间的独立性和依赖性来约束数据生成过程。文章详细阐述了三种基本的因果图结构——碰撞结构、分叉结构和链式结构，以及它们如何影响统计独立性。结构方程模型进一步细化了因果图中的关系，揭示了变量间函数关系的细节。噪声模型和未观测节点的引入则考虑了实际系统中的不确定性。总的来说，因果图提供了一种表达系统不变因果关系的工具，而不仅仅是特定数据分布的反映。

chapter 2: Models and Assumptions

Introduction

常规的统计学和机器学习问题着重数据，虽然数据很重要但是他不是整个系统的唯一部分。同样重要的是我们带来的外部知识，我们对数据生成机制的先验知识和似是而非的因果机制的假设。事实上，正是这种外部先验知识将因果推理与联想方法区分开来。得到关于因果机制和任何的因果假设是因果分析的第一步。

2.1 Causal Graph

_causal graph_因果图是用于建模因果机制和表达我们假设的主要语言。因果图编码了我们关于系统或者背后现象的一些因果机制和领域先验知识。因果图主要有两种元素组成。值得注意的是：因果图被认为是有向无环图。
-Node代表我们正在建模的世界或系统中的变量或特征。
-Edges代表连接一个结点到另一个结点的连结。每条边代表一种机制或因果关系。有向边表示指定的因果影响关系。图1表示结点A的值改变会影响结点B，但是如果改变B的值并不会改变A。在影响方向未知的情况下，用一条无向边表示。

Causal graphs and statistical independence

从根本上说，因果图描述了在其节点上的非参数数据生成过程。通过指定节点之间的独立性和依赖性，该图约束了对应于那些节点的所生成的变量之间的关系。
因果图提供了关于统计独立性的信息。如果知道一个节点的值并不能给出关于另一个节点的值的信息，则两个节点x和y在统计上是独立的。那就是:
$x⊥y，iffP(x)=P(x∣y)x{\bot}y，iffP(x)=P(x|y)$
其中 $⊥\bot$ 是独立的符号，我们还经常处理条件独立，其中两个节点x和y可能仅在统计上独立于某个其他节点z:
$(x⊥y)∣z，iffP(x∣z)=P(x∣y,z)(x{\bot}y)|z，iffP(x|z)=P(x|y,z)$
这里统计关系和因果论最大的不同就是：统计关系对应于特定的数据分布，不应与因果关系混淆。因果关系关注的是操纵一个节点的值是否会导致另一个节点的值发生变化，而统计关系关注的是知道一个节点的值是否会提供关于另一个节点的值的信息。

three classic Kinds of Causal Graph

为了说明因果图如何暗示某些统计独立性，让我们考虑三个变量的不同图结构。图2显示了三个重要的结构:碰撞结构、分叉结构和链式结构。

左子图显示了由A和C引起的节点B。这样的节点称为碰撞结点collider，因为来自两个父节点的因果在该节点上发生碰撞。重要的是，没有因果信息通过B从A传递到C，因此A和C在统计上是独立的。中间的子图表示分叉结构，其中B导致A和C，在这里B的值决定A和C的值，因此A和C不是独立的。然而，它们之间统计相关性的唯一来源是B。若限定条件B也就是给定B的值，在这种情况下A和C在统计上独立的。换句话说就是在限定条件B的情况下，A和C独立。右图：表示链式结构，因为从A到C的任何因果信息必须经过B。因此，与分叉结构类似，在给定B的条件下，A和C是有条件独立的。
这里我们使用任意两个节点之间的无向路径的概念，定义为连接两个节点的一组邻接边。为了确定两个节点之间的统计独立性，我们考虑两个节点之间的所有无向路径，并测试这些路径是否具有任何这些结构。对撞结构的因果图是唯一不需要条件就能导致统计独立的结构。因此，如果两个节点之间的所有无向路径都包含一个碰撞器，则这两个节点是独立的。当然，如果没有无向路径连接它们，它们也是独立的。

在这里引入两个重要的概念d-separated和Conditional d-separation：导致统计独立变量的节点被称为是彼此d分离的。也就是说因果图中的两个节点不存在连接两节点的无向路径，或者连接它们的所有路径都包含Collider。
下面介绍阻断的定义：

对于链式结构和分叉结构的因果图，通过“以中间变量B为条件”也就是给定B的值，那么变量A和变量C之间的路径被阻断(blocking)。
对于对撞结构，通过“以中间变量B为条件”，变量A和变量C之间原本被阻断的路径反而被打开，即变量A和变量C之间产生了相关性。

然而，有条件的独立并不简单。从fork和chain的另外两个基础结构中，我们看到了在B上的条件作用使得A和C是独立的。然而，对撞结构显示了相反的性质。以对撞结构模型B为条件，A和C变得依赖。这是因为知道一个对撞结点的价值和它的一个父母告诉我们一些关于另一个父母的事情。举个例子：什么样的情况会导致一个男生变成渣男，那就是长得有点小帅然后还爱养鱼。基于上述讨论，条件独立或d-separation要求条件变量沿着两个节点之间的所有路径形成一个分叉结构或者链式结构，但也要求它不在任何路径上形成碰撞器。对于三种因果图来说，d-separation的定义式这样的：

在链式结构 $D→E→FD\rightarrow E\rightarrow F$ ，并且中间节点在C中。
分叉结构中 $D←E→FD\leftarrow E\rightarrow F$ ，并且中间节点在C中。
在对撞结构中 $D→E←FD\rightarrow E\leftarrow F$ ，并且中间节点既不在节点C中也不再C的任何子节点中。

conditional d-separation:因果图中的两个节点在另一个节点B上是条件d-分离的，如果它们是d-分离的，或者连接它们的所有无向路径包含B作为分支结构或链式结构，但不是碰撞结构。

Causal graph and resulting data distributions

因为图中的边只表示影响的方向，而没有规定其大小、形状或相互作用，因此多个数据生成过程和多个数据概率分布与同一因果图兼容。形式上，因果图指定了数据的联合概率分布的因子分解。任何符合图的概率分布都需要遵循特定的因式分解。举个例子，在图3中可以写出A、B、C、D的联合概率分布是：
$\\ =P(D|B)P(B|C,A)P(C)P(A)$