原文:
towardsdatascience.com/exploring-causality-in-python-difference-in-differences-90179fe71e62
图片由 Scott Graham 在 Unsplash 提供
建立因果关系是现代分析中最基本且经常被忽视的领域之一。我将在一系列即将到来的文章中描述并强调我们因果推断研讨会中最常用的工具。
因果推断 101
让我们从定义因果推断开始。我将使用来自 Mixtape 一书的 Scott Cunningham 的定义。
他将其定义为“对事件和选择对特定感兴趣的结果的影响进行估计的研究”。我们试图建立变量之间的因果关系(我们可以称它们为治疗和效果)。这在许多领域都是一个普遍存在的问题,从商业到公共政策环境。
通常,因果发现框架的设置相对简单,包括:
-
治疗组 – 接受治疗的组
-
对照组 – 我们希望将其作为基准来评估治疗效果的组
-
治疗 – 任何针对我们希望分析的治疗活动的活动
-
感兴趣的结果
这种设置不仅是一个理论概念,而且是一个可以应用于广泛现实场景的实用工具。从网站优化到 A/B 测试,从药物临床试验到评估发展计划的影响,因果推断的应用范围广泛且多样化。
让我们考虑我们必须满足的条件以建立因果关系。首先,我们必须假设治疗组和对照组是可比的。在治疗和不治疗的情况下,两者都应该表现相同。例如,如果未接受治疗,治疗组中的对象应该与对照组中的对象表现相同。
反之亦然,对照组中的对象应该与那些如果接受过治疗的治疗组对象表现相同。因此,两组之间的唯一差异完全来自治疗。将治疗组的成果与对照组的成果进行比较,给我们提供了治疗效果。
对照组不仅仅是比较,而且是治疗组的反事实。它显示了如果前者没有接触到给定的治疗,它会如何表现。这强调了对照组在建立因果关系中的关键作用。
假设两组相似性的假设很强,并且依赖于可用数据和研究设计。实现这种可比性是因果推断的关键任务。
准实验
我们如何获得这样的条件?大多数处理因果关系的文章都从随机实验是建立因果关系的黄金标准这一观念开始。然而,它们往往不可行或不实用。
因此,我们一直在寻找帮助我们找到因果关系的工具。解决这个问题的研究方法被称为准实验。
在本文的其余部分,我们将重点关注最常用的一种准实验方法:双重差分法。
最低工资研究
我将在其经典应用背景下描述这种方法。为了理解这种方法,我们将探讨 Card 和 Kruger 及其著名的最低工资研究工作。
最低工资对就业的影响是经济学和公共政策中最热烈的辩论之一。该研究的作者试图找到这个问题的答案。这类问题是我们不能使用随机实验来解释的问题的一个完美例子。将某些群体或地理区域随机分配到不同的最低工资水平在实际上是不可能的。
1992 年,新泽西州将最低工资从每小时 4.25 美元提高到 5.05 美元。Card 和 Kruger 正在寻找一个基准来比较新泽西州。
研究人员决定比较新泽西州的就业水平与宾夕法尼亚州的就业水平。前一个州被选为对照组。他们选择宾夕法尼亚州,因为它在地理和经济条件上都与新泽西州相似。
他们调查了 1992 年前后两个州快餐店的员工人数。科学家们使用调查的快餐店的就业情况,因为这种业务可以迅速对最低工资的变化做出反应。
数据集
现在是深入数据集的合适时机。在必要的数据转换(以及为了训练目的的简化)之后,我们有以下数据结构可用。我使用了 David Card 网站上的数据集(davidcard.berkeley.edu/data_sets.html):
我们可以将每一行视为餐厅调查的结果。关键信息是州名、总就业人数以及给定记录是否来自最低工资变动前后的标志。我们将最低工资的变化视为分析研究中的一种处理变量。
作为一项技术说明,为了使图表更容易绘制,我们将按时间和州存储平均值在一个数据框中:
999

被折叠的 条评论
为什么被折叠?



