【因果推断与机器学习】Causal Inference: Chapter_3

原创

已于 2022-10-15 12:48:59 修改 · 1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #python #算法

于 2022-07-13 10:41:25 首次发布

本文探讨了著名的辛普森悖论，通过一个药物治疗心脏病的例子展示了该悖论如何在不同群体中产生矛盾的结果。接着，介绍了在因果推断中使用的调整公式和前门路径法则，解释了如何在存在混杂因素的情况下识别因果效应。文章详细阐述了调整公式的步骤，并利用图形表示因果关系，强调了在某些情况下工具变量的重要性。

Identification

Introduction

在介绍这节的补充内容呢，我想先引进一个著名的**“辛普森悖论”**。
辛普森医生发现了一种新药，这种新药可以降低心脏病发作的风险，于是他开始查找历史的实验数据。他注意到，如果男性患者服用了这种药，心脏病发作的风险反而高了。然后他再转向女性患者，结果大吃一惊：女性患者复用这种药以后心脏病发作的风险也变高了。但是这种药从数据上来说对整个人群来说是有益的。为什么对女性、男性有害，但是对人类有益？
以数据表明这种现象如下。

	服药组	未服药组
男性( $357700=0.51)\frac {357}{700}=0.51)$ ）	$8187=0.93\frac {81}{87}=0.93$	$234270=0.87\frac {234}{270}=0.87$
女性( $363700=0.49\frac {363}{700}=0.49$ )	$192263=0.73\frac {192}{263}=0.73$	$5580=0.69\frac {55}{80}=0.69$
总数	$273350=0.78\frac {273}{350}=0.78$	$289350=0.83\frac {289}{350}=0.83$

其中反映了男性和女性服药与不服药的比例是不同的，男性服药的人数远远小于不服药的人数，而女性服药的人数远远大于不服药的人数，因此性别是复用药物和心脏病发作的一个cofunder。辛普森悖论不过是非常简单的数学现象。如果 $\: > \: a/b$ and $\: > \:c/d$ , 那么从中不能推出 $\: > \: (a+b)/(c+d)$