最近在跑回归模型的时候,发现一个奇怪的现象:我的数据明明没有缺失值,但跑完回归后,观测值却变少了!
一开始我以为是 Stata “偷吃”了我的数据,差点就要给它“寄刀片”了。但冷静下来仔细排查后,才发现这背后隐藏了许多“玄机”。今天就和大家聊聊
为什么 Stata 会让观测值变少,以及如何避免这些“坑”。
Stata 真会“偷吃”观测值吗?
首先,Stata 并不会无缘无故“偷吃”你的观测值。它这么做,其实是有原因的,只不过这些原因可能藏得比较深。如果你也遇到过类似问题,可能是以下几个原因之一:
1. 滞后变量:第一期观测值去哪了?
如果你的回归模型中包含滞后变量(比如 L.变量
),那么每组的第一期观测值都会被剔除。这是因为滞后变量需要上一期的数据,而第一期的数据没有“前一条”可参考。
举个例子:假设你的数据是这样的:
年份 |
企业绩效 |
L.企业绩效 |
---|---|---|
2018 |
100 |
. |
2019 |
120 |
100 |