我总是告诉学生,采用自然对数来转换变量的三个原因。记录变量的原因将决定您是要记录独立变量还是因变量或两者。为了清楚起见,我正在谈论采用自然对数。
首先,如其他海报所指出的那样,提高模型拟合度。例如,如果您的残差不是正态分布的,那么采用偏斜变量的对数可以通过更改比例并使变量更“呈正态”分布来改善拟合。例如,收入被截断为零,并且经常表现出正偏斜。如果变量具有负偏斜,则可以先取变量,然后再取对数。我在这里特别考虑的是作为连续变量输入的李克特量表。虽然这通常适用于因变量,但您有时会遇到因自变量引起的残差(例如,异方差)问题,有时可以通过取该变量的对数来进行校正。例如,当运行一个模型来解释一组讲师的讲师评估并与班级进行协变量时,变量“班级规模”(即讲课的学生人数)的异常值会导致异方差,因为讲师评估中的方差较小,而较大队列比较小的队列。记录学生变量将有所帮助,尽管在此示例中,计算稳健标准误差或使用加权最小二乘可能会使解释更容易。
在模型中记录一个或多个变量的第二个原因是为了解释。我称此为便利原因。如果同时记录因变量(Y)和自变量(X),则回归系数()将具有弹性,解释将如下所示:X增加1%将导致ceteris paribus% Y的增加(平均)。仅记录回归“方程式”的一侧将导致如下所述的其他解释:βββ ββ
Y和X-X的单位增加将导致增加/减少ββ
对数Y和对数X-X增加1%将导致%增加/减少Yββ
对数Y和X-X增加一个单位将导致%增加/减少β∗100β∗100
Y和Log X-X增加1%将导致增加/减少β/100β/100
最后,这样做可能有理论上的原因。例如,我们要估计的一些模型是可乘的,因此是非线性的。采用对数可以通过线性回归估计这些模型。很好的例子包括经济学中的Cobb-Douglas生产函数和教育中的Mincer方程。Cobb-Douglas生产函数解释了如何将输入转换为输出:
Y=ALαKβY=ALαKβ
哪里
YY是某个实体(例如公司,农场等)的总生产或产出。
AA是总要素生产率(不是由投入(例如,技术变化或天气)引起的输出变化)
LL是劳动投入
KK是资本投入
βαα&是输出弹性。ββ
取这个的对数可以使函数易于使用OLS线性回归估算,如下所示:
log(Y)=log(A)+αlog(L)+βlog(K)log(Y)=log(A)+αlog(L)+βlog(K)