什么是工具变量,以及什么是孟德尔随机化,以及孟德尔随机化怎么实现都给大家写了(大家去翻翻之前的文章呀),因为孟德尔随机化的工具变量是基因变量,所以我们会用专门的R包去做,普通的工具变量研究,我们要用的方法又不一样了。
我们做工具变量回归的时候用的方法叫做两阶段最小二乘估计--two-stage least squares (TSLS),本文会给大家介绍该方法的原理和实际操作方法,希望能对大家有帮助。
两阶段最小二乘估计的基本原理
以下一步步给大家捋捋哈,假设我现在对学历和收入这两个变量有兴趣,我想知道学历在多大程度上影响了我们的收入,于是我把收入作为因变量,学历作为自变量做个回归:
y = α + βx + ε
弄个β出来,这个β能代表学历对收入的影响嘛?不行。
因为你根本就没考虑其它可能和x有关同时又影响y的因素,比如学历高的人通常家境好,社会资源好,敢创新,肯钻研等等,这些优秀的品质都有可能影响收入。但是我提到的这些变量你都没有收集,或者就算你收集了你其实也是没法控制的。
此时,我去找一个学历的工具变量(这个工具变量和x强相关,但和之前提到的各种混杂无关,也绝不会影响y)。然后有学者就找了吸烟这个工具变量,具体参考下面的文献:
Dickson, M. (2013). The causal effect of education on wages revi