Estimation and Inference of Heterogeneous Treatment Effects using Random Forests
本文开发了一种非参数因果森林方法,用于估计广义的处理效应,扩展了Breiman的随机森林算法。在无混杂的潜在结果框架下,因果森林对真实的treatment效应进行了逐点一致的估计,并展示出渐近高斯和居中的抽样分布。提出了构建基于因果森林估计的真实treatment效应渐近置信区间的实用方法。本文的理论结果依赖于随机森林算法家族的通用高斯理论,这是首次允许任何类型的随机森林(包括分类和回归森林)用于可证明有效的统计推断。实验结果表明,因果森林在处理无关协变量的情况下优于基于最近邻匹配的传统方法。
主要内容总结
1. 因果森林
-
treatment效应的定义:
τ ( x ) = E [ Y i ( 1 ) − Y i ( 0 ) ∣ X i = x ] \tau(x) = \mathbb{E}[Y_i^{(1)} - Y_i^{(0)} | X_i = x] τ(x)=E[Yi(1)−Yi(0)∣Xi=x]
在特征 X i = x X_i = x Xi=x 下,treatment效应 τ ( x ) \tau(x) τ(x) 的期望值。 Y i ( 1 ) Y_i^{(1)} Yi(1) 和 Y i ( 0 ) Y_i^{(0)} Yi(0) 分别代表处理组和对照组的潜在结果。 -
无偏估计器:
E [ Y i ( W i e ( x ) − 1 − W i 1 − e ( x ) ) ∣ X i = x ] = τ ( x ) \mathbb{E}\left[Y_i\left(\frac{W_i}{e(x)} - \frac{1-W_i}{1-e(x)}\right) | X_i=x\right] = \tau(x) E[Yi(e(x)Wi−1−e(x)1−Wi)∣Xi=x]=τ(x)
提供 τ ( x ) \tau(x) τ(x) 的无偏估计。 e ( x ) e(x) e(x) 是在 X i = x X_i=x Xi=x 时接受treatment的概率(即倾向得分), W i W_i Wi 是treatment指示器。 -
因果树的估计:
τ ^ ( x ) = 1 ∣ { i : W i = 1 , X i ∈ L } ∣ ∑ { i : W i = 1 , X i ∈ L } Y i − 1 ∣ { i : W i = 0 , X i ∈ L } ∣ ∑ { i : W i = 0 , X i ∈ L } Y i \hat{\tau}(x) = \frac{1}{|\{i: W_i=1, X_i \in L\}|} \sum_{\{i: W_i=1, X_i \in L\}} Y_i - \frac{1}{|\{i: W_i=0, X_i \in L\}|} \sum_{\{i: W_i=0, X_i \in L\}} Y_i τ^(x)=∣{i:Wi=1,Xi∈L}∣1{i:Wi=1,Xi∈L}∑Yi−∣{i:Wi=0,Xi∈L}∣1{i:Wi=0,Xi∈L}∑Yi
因果树在估计treatment效果时使用的公式,计算处理组和对照组的平均结果差值。 -
因果森林的方差估计:
V ^ I J ( x ) = n − 1 n ( n n − s ) 2 ∑ i = 1 n Cov ∗ [ τ ^ b ∗ ( x ) , N i b ∗ ] 2 \widehat{V}_{IJ}(x) = \frac{n-1}{n}\left(\frac{n}{n-s}\right)^2 \sum_{i=1}^n \operatorname{Cov}_*\left[\hat{\tau}_b^*(x), N_{ib}^*\right]^2 V IJ(x)=nn−1(n−sn)2i=1∑nCov∗[τ^b∗(x),Nib∗]2
用于估计因果森林的方差。 n n n 是样本大小, s s s 是子样本大小, τ ^ b ∗ ( x ) \hat{\tau}_b^*(x) τ^b∗(x) 是第 b b b 棵树对treatment效果的估计。
2. 随机森林的渐近理论
-
条件均值函数:
μ ( x ) = E [ Y ∣ X = x ] \mu(x) = \mathbb{E}[Y | X=x] μ(x)=E[Y∣X=x]
定义给定特征 X X X 时响应变量 Y Y Y 的期望值。 -
随机森林的蒙特卡洛近似:
R F ( x ; Z 1 , … , Z n ) ≈ 1 B ∑ b = 1 B T ( x ; ξ b ∗ , Z b 1 ∗ , … , Z b s ∗ ) \mathrm{RF}(x; Z_1, \ldots, Z_n) \approx \frac{1}{B} \sum_{b=1}^B T(x; \xi_b^*, Z_{b1}^*, \ldots, Z_{bs}^*) RF(x;Z1,…,Zn)≈B1b=1∑BT(x;ξb∗,Zb1∗,…,Zbs∗)
通过蒙特卡洛平均计算随机森林的近似方法。 -
随机森林的定义:
RF ( x ; Z 1 , … , Z n ) = ( n s ) − 1 ∑ 1 ≤ i 1 < i 2 < … < i s ≤ n E ξ ∼ Ξ [ T ( x ; ξ , Z i 1 , … , Z i s ) ] \operatorname{RF}(x; Z_1, \ldots, Z_n) = \left( \begin{array}{c} n \\ s \end{array} \right)^{-1} \sum_{1 \leq i_1 < i_2 < \ldots < i_s \leq n} \mathbb{E}_{\xi \sim \Xi}[T(x; \xi, Z_{i_1}, \ldots, Z_{i_s})] RF(x;Z1,…,Zn)=(ns)−11≤i1<i2<…<is≤n∑Eξ∼Ξ[T(x;ξ,Zi1,…,Zis)]
精确描述了随机森林如何将个体树聚合成森林。 -
渐近方差估计:
V ^ I J ( x ) = n − 1 n ( n n − s ) 2 ∑ i = 1 n Cov ∗ [ μ ^ b ∗ ( x ) , N i b ∗ ] 2 \widehat{V}_{IJ}(x) = \frac{n-1}{n}\left(\frac{n}{n-s}\right)^2 \sum_{i=1}^n \operatorname{Cov}_*\left[\hat{\mu}_b^*(x), N_{ib}^*\right]^2 V IJ(x)=nn−1(n−sn)2i=1∑nCov∗[μ^b∗(x),Nib∗]2
用于估计随机森林在某一点 x x x 的渐近方差。
3. 推断异质性Treatment效应
因果森林定义:
因果森林
C
F
\mathrm{CF}
CF 通过训练因果树
Γ
\Gamma
Γ 并对其估计的
τ
\tau
τ 进行平均得到。
C
F
(
x
;
Z
1
,
…
,
Z
n
)
=
(
n
s
)
−
1
∑
1
≤
i
1
<
i
2
<
…
<
i
s
≤
n
E
ξ
∼
Ξ
[
Γ
(
x
;
ξ
,
Z
i
1
,
…
,
Z
i
s
)
]
\mathrm{CF}(x ; Z_1, \ldots, Z_n) = \left( \begin{array}{c} n \\ s \end{array} \right)^{-1} \sum_{1 \leq i_1 < i_2 < \ldots < i_s \leq n} \mathbb{E}_{\xi \sim \Xi}[\Gamma(x ; \xi, Z_{i_1}, \ldots, Z_{i_s})]
CF(x;Z1,…,Zn)=(ns)−11≤i1<i2<…<is≤n∑Eξ∼Ξ[Γ(x;ξ,Zi1,…,Zis)]
- C F \mathrm{CF} CF:因果森林。
- x x x:测试点。
- Z i Z_i Zi:训练样本。
- n n n:样本总数。
- s s s:子样本大小。
- ξ \xi ξ:附加随机性。
- Γ \Gamma Γ:因果树。
因果树的诚实性与规则性:
因果树新定义包括诚实性(不使用响应
Y
i
Y_i
Yi 进行分裂)和规则性(每个叶子至少包含
k
k
k 个来自两种Treatment类别的样本)。
因果森林的一致性与渐近正态性:
类似于回归森林的定理,依赖无混淆性和重叠假设实现
τ
(
x
)
\tau(x)
τ(x) 的一致估计。
条件平均Treatment效应估计:
E
[
Γ
(
x
)
∣
X
,
W
]
=
∑
{
i
∈
I
(
1
)
(
x
)
}
E
[
Y
(
1
)
∣
X
=
X
i
,
W
=
1
]
∣
I
(
1
)
(
x
)
∣
−
∑
{
i
∈
I
(
0
)
(
x
)
}
E
[
Y
(
0
)
∣
X
=
X
i
,
W
=
0
]
∣
I
(
0
)
(
x
)
∣
\begin{aligned} \mathbb{E}[\Gamma(x) \mid X, W] = & \frac{\sum_{\{i \in \mathcal{I}^{(1)}(x)\}} \mathbb{E}[Y^{(1)} \mid X=X_i, W=1]}{|\mathcal{I}^{(1)}(x)|} \\ & - \frac{\sum_{\{i \in \mathcal{I}^{(0)}(x)\}} \mathbb{E}[Y^{(0)} \mid X=X_i, W=0]}{|\mathcal{I}^{(0)}(x)|} \end{aligned}
E[Γ(x)∣X,W]=∣I(1)(x)∣∑{i∈I(1)(x)}E[Y(1)∣X=Xi,W=1]−∣I(0)(x)∣∑{i∈I(0)(x)}E[Y(0)∣X=Xi,W=0]
估计给定特征
X
X
X 和Treatment分配
W
W
W 时,因果树
Γ
\Gamma
Γ 的预期结果。考虑处理组和对照组的期望响应,估计条件平均Treatment效应。
- E [ Γ ( x ) ∣ X , W ] \mathbb{E}[\Gamma(x) \mid X, W] E[Γ(x)∣X,W]:给定特征 X X X 和Treatment分配 W W W 时,因果树 Γ \Gamma Γ 的期望输出
- Y ( 1 ) Y^{(1)} Y(1) 和 Y ( 0 ) Y^{(0)} Y(0):分别是Treatment和对照情况下的潜在结果
- X i X_i Xi:第 i i i 个样本的特征
- W = 1 W=1 W=1 和 W = 0 W=0 W=0:分别表示处理组和对照组
- I ( 1 ) ( x ) \mathcal{I}^{(1)}(x) I(1)(x) 和 I ( 0 ) ( x ) \mathcal{I}^{(0)}(x) I(0)(x):在 x x x 点周围的处理组和对照组的样本索引集合。
- ∣ I ( 1 ) ( x ) ∣ |\mathcal{I}^{(1)}(x)| ∣I(1)(x)∣ 和 ∣ I ( 0 ) ( x ) ∣ |\mathcal{I}^{(0)}(x)| ∣I(0)(x)∣:处理组和对照组的样本数量。
4. 模拟实验
- 测试因果森林对两个潜在偏差源的应对能力:实际Treatment效应 τ ( x ) \tau(x) τ(x) 的稳定邻域识别和因采样倾向性 e ( x ) e(x) e(x) 变化导致的偏差。
- 比较因果森林和非自适应的k-NN方法在估计Treatment效应方面的表现。
- 考虑样本大小 n n n、环境维度 d d d,以及主效应 m ( x ) m(x) m(x)、Treatment效应 τ ( x ) \tau(x) τ(x)和Treatment倾向性 e ( x ) e(x) e(x)
- 验证基于森林的方法在有限样本中相对于非自适应方法如k-NN的改进,并建立严谨、渐近有效的置信区间
- 两个实验设置专注于测试因果森林对Treatment效应异质性的适应能力及对采样倾向性和主效应之间交互作用的抵抗力
k-最近邻匹配方法的Treatment效应估计:
τ
^
K
N
N
(
x
)
=
1
k
∑
i
∈
S
1
(
x
)
Y
i
−
1
k
∑
i
∈
S
0
(
x
)
Y
i
\hat{\tau}_{KNN}(x) = \frac{1}{k} \sum_{i \in \mathcal{S}_1(x)} Y_i - \frac{1}{k} \sum_{i \in \mathcal{S}_0(x)} Y_i
τ^KNN(x)=k1i∈S1(x)∑Yi−k1i∈S0(x)∑Yi
估计Treatment效应,通过比较处理组和对照组的
k
k
k个最近邻的平均响应。
- τ ^ K N N ( x ) \hat{\tau}_{KNN}(x) τ^KNN(x): 在点 x x x的估计Treatment效应。
- k k k: 最近邻的数量。
- S 1 ( x ) , S 0 ( x ) \mathcal{S}_1(x), \mathcal{S}_0(x) S1(x),S0(x): 分别是对于点 x x x,处理组和对照组的 k k k个最近邻。
- Y i Y_i Yi: 响应变量。
主效应和Treatment效应的定义:
main effect:
m
(
x
)
=
2
−
1
E
[
Y
(
0
)
+
Y
(
1
)
∣
X
=
x
]
,
treatment effect:
τ
(
x
)
=
E
[
Y
(
1
)
−
Y
(
0
)
∣
X
=
x
]
,
treatment propensity:
e
(
x
)
=
P
[
W
=
1
∣
X
=
x
]
.
\begin{aligned} & \text{main effect: } m(x)=2^{-1} \mathbb{E}[Y^{(0)}+Y^{(1)} | X=x], \\ & \text{treatment effect: } \tau(x)=\mathbb{E}[Y^{(1)}-Y^{(0)} | X=x], \\ & \text{treatment propensity: } e(x)=\mathbb{P}[W=1 | X=x]. \end{aligned}
main effect: m(x)=2−1E[Y(0)+Y(1)∣X=x],treatment effect: τ(x)=E[Y(1)−Y(0)∣X=x],treatment propensity: e(x)=P[W=1∣X=x].
定义了主效应、Treatment效应和Treatment倾向性。
- m ( x ) m(x) m(x): 给定特征 x x x时的主效应。
- τ ( x ) \tau(x) τ(x): 给定特征 x x x时的Treatment效应。
- e ( x ) e(x) e(x): 给定特征 x x x时的Treatment倾向性。
- Y ( 0 ) , Y ( 1 ) Y^{(0)}, Y^{(1)} Y(0),Y(1): 分别是未接受Treatment和接受Treatment时的潜在结果。
Treatment效应的具体形式:
τ
(
X
)
=
ς
(
X
1
)
ς
(
X
2
)
,
ς
(
x
)
=
1
+
1
1
+
e
−
20
(
x
−
1
/
3
)
\tau(X) = \varsigma(X_1) \varsigma(X_2), \quad \varsigma(x) = 1 + \frac{1}{1 + e^{-20(x-1/3)}}
τ(X)=ς(X1)ς(X2),ς(x)=1+1+e−20(x−1/3)1
在模拟实验中定义一个特定的Treatment效应函数,依赖于前两个特征的平滑函数。
- τ ( X ) \tau(X) τ(X): 给定特征 X X X时的Treatment效应。
- ς ( x ) \varsigma(x) ς(x): 用于构造 τ ( X ) \tau(X) τ(X)的平滑函数。
- X 1 , X 2 X_1, X_2 X1,X2: 特征向量 X X X的前两个分量。
缺陷
- 无偏估计器假设了无混杂性
- 假设训练样本是独立同分布的
- 因果森林模型复杂,需要大量数据训练,在数据量少或特征维度高时性能受影响;实际应用中参数选择
- 没有解决随机森林在高维空间中的性能问题
- 最优子样本大小 s s s 对模型性能影响重大
- 处理组和对照组的样本数量可能影响估计的准确性。如果某一组样本数量过少,可能导致估计不准确或有偏差。
- k-NN 方法在特征空间的边缘区域存在偏差,特别是在高维数据时性能下降。
- τ ( X ) \tau(X) τ(X)的具体形式过于简化,可能不足以捕捉更复杂或现实世界的Treatment效应模式。
- 手动选择双样本森林或倾向性森林可能限制模型的通用性和灵活性。
- 模拟实验中对Treatment效应的假设过于简化,不足以捕获现实世界的复杂情况
- 高维情境下,因果森林在预测Treatment效应的边界区域存在偏差控制问题
改进方向
- 进行更多健壮性分析;开发高效的参数调优和模型选择方法
- 测试随机森林在存在数据依赖性情况下的性能;在高维数据上改进随机森林性能的策略;开发选择最优子样本大小 s s s 的方法;在真实世界数据集上验证理论结果,并根据观察到的差异改进模型
- 研究在存在混淆因素时调整和应用因果森林的方法,增强模型鲁棒性和适用性
- 研究在处理组和对照组间保持或增加样本均衡性,提高估计的准确性和可靠性
- 研究构建能够适应多个测试点的因果树的方法
- 研究如何改进k-NN 方法,使其在高维数据和复杂Treatment效应下更有效
- 采用更复杂或具代表性的模型以更好地模拟现实世界中的Treatment效应
- 开发自动选择数据拆分特征的方法,增强模型的适应性
- 使用更强大的拆分规则来减少偏差,使树更集中于Treatment效应信号最强的坐标
相关论文扩展学习
《CausalEGM: a general causal inference framework by encoding generative modeling》学习笔记
- 《Estimation and Inference of Heterogeneous Treatment Effects using Random Forests》面临的挑战之一是在高维协变量的情况下维持性能和准确性。因果森林方法在处理高维数据方面可能受限。《CausalEGM: a general causal inference framework by encoding generative modeling》通过引入CausalEGM框架,使用编码生成模型来将高维协变量映射到低维潜在空间,从而克服了这一限制。
- 《Estimation and Inference of Heterogeneous Treatment Effects using Random Forests》基于随机森林,对特定的数据假设较为敏感。CausalEGM的模型不需要预先设定Treatment或结果模型,提供了更大的灵活性和适应性。
- 《Estimation and Inference of Heterogeneous Treatment Effects using Random Forests》无法充分捕捉复杂的Treatment效应模式。CausalEGM通过深度学习技术更好地模拟了现实世界中的Treatment效应模式。