回归分析中的变量效应分解与处理方法
在回归分析中,我们常常会遇到各种复杂的情况,比如未观测到的预测变量、多个随机效应以及多重推断等问题。下面将详细介绍一些处理这些问题的方法。
1. 未观测预测变量的处理
在回归分析里,未观测到的预测变量可能会对结果产生影响。例如,在教育年限的例子中,距离变量与能力无关的假设就存在争议。有观点认为,有能力的孩子往往来自有能力的父母,而有能力的父母会认为大学很重要,从而选择住在大学附近。这也说明了工具变量(IV)方法为何存在争议。不过,未观测变量的潜在影响本身就可能使分析充满争议,IV 方法可用于尝试解决这类问题,但使用时需格外谨慎。
1.1 随机效应模型
为了处理未观测变量,我们可以采用随机效应模型。考虑一个常见的线性回归模型:
[E(Y | X = t) = β_0 + β_1t]
其中,(β_0) 和 (β_1) 是需要从数据中估计的未知常数。现在对模型进行修改,让 (β_0) 成为随机变量,每个单位(如每个人)都有不同的值,但 (β_1) 对所有人都相同。我们可以将新模型写成:
[E(Y | X = t) = β_0 + B + β_1t]
这里,(B) 是均值为 0 的随机变量,每个人的 (B) 值不同,此时人们的截距成为均值为 (β_0)、方差为 (\sigma^2_B) 的随机变量。更常见的写法是:
[Y = β_0 + α + β_1X + ϵ]
其中,(α) 和 (ϵ) 的均值为 0,方差分别为 (\sigma^2_a) 和 (\sigma^2_e)。需要从数据中估计的总体值包括 (β_0)、(β_1)、(\sigma^2_a) 和 (\sigma^
超级会员免费看
订阅专栏 解锁全文
1343

被折叠的 条评论
为什么被折叠?



