1 基本概念
BOX-COX变换是由博克斯与考克斯在1964年提出的一种应用非常广泛的变换,是对因变量y做如下变换:
BOX-COX变换是一个幂变换族,λ=0时,成为对数变换。
从概率分布角度看,当数据本身服从对数正态分布时,对数据做对数变换后其就服从正态分布。对数正态分布是右偏分布,有厚重的右尾。
从数据看,如果数据中一些数值很大,但是小数值的数据更密集,个数更多,大数值数据较稀疏,个数较少,这样的数据很可能服从对数正态分布,可以尝试对其做对数变换。
对于回归问题,可以考虑只对因变量做对数变换或者只对自变量做对数变换,或者同时对因变量和自变量做对数变换。
2 python实现
数据准备:
1)消除异方差性
分析异方差性,斯皮尔曼相关系数检验,如下:
# 异方差性检查
eres = result.resid
abse = abs(eres)
# spearman相关系数检验
cortest1 = scipy.stats.spearmanr(df['x1'], abse)
cortest2 = scipy.stats.spearmanr(df['x2'], abse)
print(cortest1, cortest2)
x2的pvalue的值小于0.05,则认为存在异方差性。
进行BOX-COX变换:
# boxcox变换
ynew, lamb = scipy.stats.boxcox(df['y'])
df['y'] = ynew
ynew是变换后的y值,lamb是λ的值。
再建模和异方差性的分析:
result2 = smf.ols('y~x1+x2', data=df).fit()
print(result2.summary())
# 计算残差
eres = result2.resid
# 异方差性检查
abse = abs(eres)
# spearman相关系数检验
cortest1 = scipy.stats.spearmanr(df['x1'], abse)
cortest2 = scipy.stats.spearmanr(df['x2'], abse)
print(cortest1, cortest2)
x1和x2的pvalue的值均大于0.05,则认为无异方差性。
2)消除自相关性
自相关性分析:
#DW检验
DW = sm.stats.durbin_watson(result.resid)
rho = 1-0.5*DW
print(DW)
使用DW检验,结果为1.47,查表得到DL=0.98,DU=1.54,DW值落在自相关性的区域里面,所以存在自相关性。
BOX-COX变换:
# boxcox变换
ynew, lamb = scipy.stats.boxcox(df['y'])
df['y'] = ynew
print(df)
result2 = smf.ols('y~x1+x2', data=df).fit()
print(result2.summary())
print(lamb)
再进行DW检验,结果为1.68,DW值落在无自相关性区域,所以消除了模型的自相关性。
参考:https://blog.youkuaiyun.com/DL11007/article/details/128670981