2024-2025秋季学期第十一周调研技能学习——因果推断(1)
文章目录
一.辛普森悖论
在讨论因果推断之前,我们先来看一个悖论——辛普森悖论。
首先考虑一个与现实情况非常相关的例子:针对某种新冠病毒COVID-27,假设有两种疗法:方案 A和方案 B,B比A更稀缺(耗费的医疗资源更多),因此目前接受方案A的患者与接受方案B的患者比例约为:73%/27%。想象一下你是一名专家,需要选择其中一种疗法,而这个国家只能选择这一种疗法,那么问题来了,如何选择才能尽量少的减少死亡?
表1
假设你有关于死于COVID-27的人的百分比数据(表1)。他们所接受的治疗是与病情的严重程度相关的。在表1中,按照轻症、重症分别来看,B治疗方案的死亡率均低于A的死亡率,但是,相反的是,总的看来,接受方案A的人中总共有16%的人死亡,而接受B的死亡率是19%,与分开来看产生了悖论。
导致出现辛普森悖论的关键因素是各个类别的非均匀性。接受A治疗的1500人中有1400人病情轻微,而接受B治疗的550人中有500人病情严重。因为病情轻的人死亡的可能性较小,这意味着接受治疗A的人的总死亡率低于如果病情轻和病情重的人各一半的情况。治疗B的情况则相反,这就导致了总的死亡率16%<19%。
其实,方案A或方案B都可能是正确答案,这取决于数据的因果结构。换句话说,因果关系是解决辛普森悖论的关键。
情况一:
图1
如图1所示,病情状况和治疗方案共同对死亡率产生影响,而病情状况又会对治疗方案产生影响,也就是说病情轻重会影响医生给你用哪种方案。
在这种情况下,医生决定给大多数病情轻微的人提供A方案,而把更昂贵、更有限的B治疗方法留给病情严重的人。因为病情严重的人更有可能死亡,并导致一个人更有可能接受B治疗。因此,总体B的死亡率更高的原因仅仅是选择方案B中的人重症的权重更大,而重症即使用了更贵的方案B,死亡率100/500=20%也比轻症用方案B的死亡率5/50=10%要高,最终混合的结果会更偏向于重症的结果。
在这里,病情状况混淆了治疗方案对死亡率的影响。为了纠正这种混杂因素,我们必须研究相同条件的死亡率与治疗方案的关系。这意味着,最好的治疗方法是在每个子群体中选择低死亡率的治疗方法——即方案B。
情况二:
图二
如图2,治疗方案是病情状况的原因,病情状况又是死亡率的原因。这种情况的实际场景是:方案 B 非常稀缺,以至于患者在选择接受治疗后需要等待很长时间才能实际接受治疗,而选择A的患者很快就会得到治疗。在这种情况下,治疗方案是与病情无关的,而情况一,病情会决定方案。
由于 COVID-27 患者的病情会随着时间的推移而恶化,方案B实际上会导致病情较轻的患者发展为重症,从而导致更高的死亡率。因此,即使B一旦用药就比A更有效,由于方案B的长时间等待会导致病情恶化550个选择B的人里面有500人因为等的时间长变重症了,导致其病重的权重增大,并最终导致总体死亡率更偏向于重症死亡率。
因此看来,显然治疗方案A是更好的选择。
总结:
更有效的治疗完全取决于问题的因果结构。 在情况 1 中,B 更有效。在情况 2 中,A 更有效。 没有因果关系,辛普森悖论就无法解决。有了因果关系,这就不是悖论了。
二、相关性不等于因果关系
许多人都听过“相关性不等于因果”(correlation does not imply causation),下面我们通过一个例子来直观的帮助大家理解。
编辑如上图所示,从两条折线的大致走势可以看出,每年因落入游泳池而溺水的人数与 Nicolas Cag每年出演的电影数量具有高度相关性。 对于这些相关性,我们可以得出以下这几种解释
- Nicolas Cage在他的电影中鼓励糟糕的游泳者跳进游泳池。
- 当Nicolas Cage看到那一年发生了多少溺水事件时,他是更有动力去出演更多的电影。
- 也许尼古拉斯凯奇有兴趣增加他在因果推理从业者中的知名度,所以他回到过去说服他过去的自己做正确数量的电影让我们看到这种相关性。
显然,这几种说法都是不对的,两者没有因果关系,因此是一种虚假的相关性。从这个简单的例子我们可以直观的理解“相关性并不等于因果关系”。
关联与因果的关系
"相关性 (Correlation)"经常被口语化地用作统计依赖性(statistical dependence)的同义词,然而,"关联 "在理论上只是对linear statistical dependence的一种衡量。在以后,我们将统一使用关联(association)一词来表示statistical dependence。
对于任何给定数量的关联,并不是 "所有的关联都是因果关系 "或 “没有任何关联是因果关系”。有可能存在大量的关联,而其中只有一部分是因果关系。"关联不等于因果 "只是意味着关联的数量和因果的数量可以是不同的。
再考虑一个例子,假设我们有穿鞋睡觉和醒来后头痛的数据。结果发现,在大多数情况下,如果有人穿鞋睡觉,醒来后会头痛。而在大多数情况下,如果不穿鞋睡觉,醒来后不头痛。如果不考虑因果,人们把这样有关联的数据解释为“穿鞋睡觉会导致人们醒来头痛”,尤其是当他们在寻找一个理由来证明不穿鞋睡觉是合理的。
事实上,它们都是由一个共同的原因引起的:前一天晚上喝酒(喝醉了大概率才会穿鞋睡觉)。如图1.4所示,这种变量被称为 "混杂因子(confounder) "或 “潜伏变量(lurking variable)”。我们将由confounder引起的关联称为confounding association,其实是一个虚假的关联。
观察到的total association可以由混杂关联confounding association(图中红色箭头)和因果关联causal association(图中蓝色箭头)组成。可能的情况是,穿鞋睡觉确实对醒来后的头痛有一丢丢的因果关系。那么,总的关联将不只是混杂关联,也不只是因果关联,它将是两者的混合。
三、如何去分析因果关系:RCTs
如果我们要观察的“因”有其他的因果父节点存在,就会导致其对应的“果”存在混杂变量不独立的问题,从而导致结果的差异不仅仅与”果“有关。
RCTs,即随机对照实验,通过控制“因”服从随机分配,使得我们观察的“果“的混杂变量相互独立(混杂变量的分布相同),从而消除混杂变量的影响,此时”果“之间的差异只与”因“有关。
由于其能最大程度的避免混杂变量导致的偏倚,被公认为因果分析的”黄金标准“。在实验设计中,遵循三个基本原则:设置对照组(control),研究对象的随机化分组(randomization),盲法实验(blind)。盲法实验分为单盲实验和双盲实验,前者指的实验对象不知道自己的分组,但是实验者知道;后者指的是双方都不知道分组情况。两者的差异在于是否控制了研究者的主观因素这一混杂变量。
四、观察性研究中的因果关系
1.随机对照试验的局限性
主要体现在随机化在一定情况下无法正常进行,例如:
(1)道德因素(Ethical reasons):例如,为了测量对肺癌的影响而随机分配人们吸烟是不道德的。
(2)不可行性( Infeasibility):例如,将国家随机划分为共产主义/资本主义体系来衡量对 GDP 的影响是不可行的。
(3)不可能性(Impossibility):例如,我们不可能改变活人出生时的 DNA 以测量对乳腺癌的影响。
2.如何在观察性研究中进行因果推断
通过调整混杂变量来估计因果效应:
- 混杂变量C**:**是同时影响处理变量T和结果变量Y的变量。如果不控制这些变量,处理和结果之间的关联可能会被混杂变量所偏倚,导致错误的因果结论。
- 调整混杂变量的目标是:去除混杂效应,正确估计处理对结果的因果效应。
(1)条件期望下的调整:
我们定义W:是足够的调整变量集合(sufficient adjustment set),即包含了所有可能的混杂变量。
- 在调整了
后,T和Y之间的混杂路径被阻断,因果效应可以通过条件期望
来估计。
:表示外部干预或强制设定
的因果效应操作。
则可得公式为:
(2)整体因果效应的估计:
- 群体的平均因果效应可以通过对W的加权平均计算,权重是W的边际分布。
则可得公式为:
(3)几种调整变量的选择及其合理性:
-
因果路径:
T → M → Y T\rightarrow M \to Y T→M→Y
是处理变量T对结果Y的因果路径(蓝色箭头)。 -
混杂路径:
C → T → Y C\rightarrow T \to Y C→T→Y
是由于混杂变量C引入的混杂路径(红色箭头)。 -
调整策略:
C是混杂变量。通过调整C,可以阻断红色混杂路径,从而正确估计的因果效应。
-
因果路径:
T → M → Y T\rightarrow M \to Y T→M→Y
是处理变量T对结果Y的因果路径(蓝色箭头)。 -
混杂路径:
W 1 → T 和 C → T W_{1}\rightarrow T 和 C\rightarrow T W1→T和C→T
是可能的混杂来源。 -
调整策略:
通过调整
W 1 、 W 3 、 C W_{1}、W_{3}、C W1、W3、C
可以阻断红色混杂路径,从而正确估计的因果效应。
-
因果路径:
T → M → Y T\rightarrow M \to Y T→M→Y
是处理变量T对结果Y的因果路径(蓝色箭头)。 -
混杂路径:
Z 2 → T → Y Z_{2}\rightarrow T\to Y Z2→T→Y
是混杂路径(红色箭头)。 -
调整策略:
通过调整
Z 2 Z_{2} Z2
可以阻断红色混杂路径,从而正确估计的因果效应。
五、Adjuct/Control for confounders
但是在很多问题的研究中,我们无法设计随机对照实验,比如一些涉及伦理的实验或者大大超出研究者能力的实验,这种只能通过观察结果分析因果效应研究就被称为观察型研究。此时就要调整混杂变量以去除混杂效应,用调整后的计算结果来正确评估因果效应。
在这个模型中,由于C的存在,导致了蓝色线描述的混杂路径,因此我们需要block掉这条路径,从而得到T与Y之间较为纯净的因果关系,而block的方法,就是对变量加以控制(Control),使其与
T
T
T相互独立。
控制的目的是使 S S S在t=0和t=1时的分布相同,所以我们可以先得出C的概率分布列,然后以此为权重计算T对Y的影响。由于此时C与T已经独立,得到的结果就是T和Y的因果效应。
条件期望的调整:
E [ Y ( t ) ∣ W = w ] ≜ E [ Y ∣ d o ( T = t ) , W = w ] = E [ Y ∣ T = t , W = w ] E[Y(t)|W=w] \triangleq E[Y|do(T=t),W=w]=E[Y|T=t,W=w] E[Y(t)∣W=w]≜E[Y∣do(T=t),W=w]=E[Y∣T=t,W=w]
整体因果效应的调整:
E
[
Y
(
t
)
]
≜
E
[
Y
∣
d
o
(
T
=
t
)
]
=
E
W
[
E
[
Y
∣
T
=
t
,
W
]
]
E[Y(t)] \triangleq E[Y \mid do(T=t)] = E_W[E[Y \mid T=t, W]]
E[Y(t)]≜E[Y∣do(T=t)]=EW[E[Y∣T=t,W]]
其中
d
o
(
T
=
t
)
do(T=t)
do(T=t)表示外部干预或强制设定
T
=
t
T=t
T=t的操作;
W
W
W是表示包含所有可能混杂变量的集合,在这个模型里就是
C
C
C;
E
W
E_W
EW是
W
W
W的边际分布。
放在上述例子中的具体计算过程如下:
结果解读:
-
未经调整的表面结果:
治疗 A:总死亡率为 16%。
治疗 B:总死亡率为 19%。
表面上看,治疗A的效果似乎更好。
-
调整后的因果结果:
治疗 A:调整后因果死亡率为 19.4%。
治疗 B:调整后因果死亡率为 12.9%。
结论: 实际上,治疗B的效果更好,但由于严重患者倾向选择治疗B,导致未经调整的数据低估了治疗B的效果。
关键总结
- 混杂效应的影响: 病情严重程度(C)同时影响治疗选择(T)和治疗效果(Y),如果不调整,可能得出误导性的结论。
- 因果推断方法: 通过调整混杂变量(这里是 C),可以更准确地估计治疗的因果效应。
- 现实意义: 在类似医疗实验或政策评估中,必须考虑混杂变量,以避免错误的决策。
关于公式的调整,有一个直观的理解方式。当我们用上述模型评估 A A A和 B B B对死亡率的因果效应时,我们有 P ( c = 0 ) P(c=0) P(c=0)的概率碰到病情为Mild的病人,有 P ( c = 1 ) P(c=1) P(c=1)的概率碰到一个病情为Severe的病人,用病情的概率乘以对应的死亡率,得到的结果才是 A A A和 B B B的真正治疗效果。
需要注意的是,在评估A和B对死亡率的因果效应时,均用频率近似概率,且A,B在不同的Condition下样本量存在差异,所以会产生一定的误差。