Identification
当我们以因果结构图模型的形式捕获了我们的因果假设,因果分析的第二个阶段就是识别。在这个阶段,我们的目标是分析我们的因果模型——包括特征之间的因果关系以及观察到哪些特征——以确定我们是否有足够的信息来回答特定的因果推断问题。
我们首先使用干预图来形式化因果推理问题的概念。我们描述了将干预图中的关系与我们观察数据的因果模型联系起来的do-calculus规则。我们展示了do-calculus如何引导我们各种识别策略,以及do-calculus如何与参数假设相结合。最后,我们讨论了这些策略的相对优势和劣势,并讨论了分析因果推理问题的常用方法,以帮助从这些不同的方法中进行选择。
Causal inference quesitons: Concepts and Notation
在这里我们缩小范围讨论因果推理问题,讨论这些问题需要的假设有:(1)因果模型是已知的。(2)我们希望量化两个特定变量之间的因果关系,例如他的强度和函数关系。因果模型,无论是以图形形式还是以一组等式表达,都捕捉了我们对节点之间可能存在的关系的假设。
Formalizing causal inference questions using intervention graphs and do notation
基于图1的因果图,我们所存在的疑惑就是干预如何改变特征A的值影响特征B的值?我们不能简单地称之为 P(B∣A)P(B|A)P(B∣A),因为这个符号已经用来表示观察到的分布,这是有变量C参与的情况下得出的分布结果,这是统计关系。在我们观察到的数据中,我们所期望的是 B 的值会是什么在给定一个特定的A的值情况下。
为了正确地表述这个问题,我们必须首先引入一种符号,来处理统计关系和因果关系之间的微妙区别。为了表示A和B的因果关系,我们需要一个特殊的数学符号来将它与数学上的统计关系做一个区分。我们把这种因果关系写成:
P(B∣do(A))P(B|do(A))P(B∣do(A))
do(A)do(A)do(A)符号表示在变量A上所做的干预,当我们估计 B 以do(A)do(A)do(A)为条件 ,我们想象自己改变了变量A地值,同时保持其余部分不变——当然,直接或间接的变化来自于操纵 A 的值。因为我们的干预是独立于系统的其余部分进行的,所以我们本质上是在创造一个新的因果模型,我们已经切断了这个模型 A 来自其所有父代的边。换句话说,我们的情况如图2所示。换句话说我们看到了原始的图G,图2的右边我们看到了具有该特征的相同模型 A 现在是独立确定的。称图2为介入干预图或者DoGraphDo GraphDoGraph,Gdo(A)G_{do(A)}Gdo(A)。这是一个新系统,如果我们可以观察从数据分布中取样的数据 P∗P^*P∗对应于这个新系统,我们观察到的数据将完美地代表两者之间的因果关系 A 和其他值。也就是说P(B∣do(A))=P∗(B∣A)P(B|do(A))=P^*(B|A)P(B∣do(A))=P∗(B∣A)因此E[B∣do(A)]=E∗[B∣A]E[B|do(A)]=E^*[B|A]E[B∣do(A)]=E∗[B∣A]。
由于在需要做出决策的背景下我们需要经常问出因果性质的问题,而且我们经常比较两种可能性的结果来帮助我们理解我们可能采取的行动措施。例如,加入我们计划在变量A上实施一个干预措施,我们因果推断问题就关注在比较A=1和A=0的效果。所以A → BA\:\rightarrow\:BA→B的因果效应表示为:
P(B∣do(A=1)) − P(B∣do(A=0))(1)P(B|do(A=1))\:-\:P(B|do(A=0))\tag{1}P(B∣do(A=1))−P(B∣do(A=0))(1)
当然,如果我们决策的重点比较复杂,涉及多个选项,我们会在选项之间做很多比较。
如果我们决策的焦点是一个连续变量,我们可以用导数来表示干预的效果:
dBd do(A)=limΔ→0[P(B∣do(A + ΔA) − P(B∣do(A))ΔA](2) \frac{dB}{d \:do(A)}=\lim_{\Delta\rightarrow0}[\frac{P(B|do(A\:+\:\Delta A)\:-\:P(B|do(A))}{\Delta A}\tag{2}] ddo(A)dB=Δ→0lim[ΔAP(B∣do(A+ΔA)−P(B∣do(A))](2)
或者,如果有多个独立变量,我们可以将影响写成偏导数,其中偏导数的计算是 XXX,排除治疗的独立变量的集合。
∂B∂do(A)=limΔA→0[P(B∣do(A + ΔA),X)−P(B∣do(A),X)ΔA](3) \frac{\partial B}{\partial do(A)}=\lim_{\Delta A \rightarrow 0}[\frac{P(B|do(A\:+\:\Delta A),X)-P(B|do(A),X)}{\Delta A}]\tag{3} ∂do(A)∂B=ΔA→0lim[ΔAP(B∣do(A+ΔA),X)−P(B∣do(A),X)](3)
Feature Interactions and Heterogeneous Effects
治疗对结果的影响很少是简单和一致的。更确切地说,这种效果通常会因上下文或单元级特性而异。例如,一个医疗程序在年轻或年老的病人身上可能效果更好或更差;或者,价格折扣可能会增加某些产品的销量,但不会增加其他产品的销量。
我们将这些不同的效果建模为特征交互。在我们的系统图形模型中,我们的结果特征将具有来自治疗的传入边缘,以及一个或多个影响结果或修改治疗对结果的影响的上下文特征。例如,图2中结果变量B不仅有来自变量A的入度也同时包括有来自其他变量C和E的入度。这些变量可能会和A相互作用进而削弱或者扩大对结果变量B的影响。仅从因果图看我们不知道变量C和E如何影响A来改变B。
回想一下,我们可以将节点的值表示为其父特性的一般函数。不失一般性,让我们将节点的值表示为单个父节点的一般函数,v0v_0v0和剩余父节点的向量 vvv<
因果推理与do运算符:识别、效应与实验分析

本文深入探讨了因果分析的识别阶段,主要围绕do运算符来阐述。通过干预图和do-calculus规则,解释如何在非随机实验中识别和估计因果效应。内容涵盖如何处理特征交互、异质效应、直接和间接效应,以及如何从观察数据中推断因果分布。此外,还讨论了随机实验的重要性以及如何在因果图中应用do-calculus的三条规则来处理观察和干预分布的关系。
最低0.47元/天 解锁文章
1211

被折叠的 条评论
为什么被折叠?



