Python实现BOX-COX变换

我不爱机器学习

于 2024-11-16 16:01:36 发布

阅读量642

点赞数 4

分类专栏：统计文章标签： python 统计学

本文链接：https://blog.youkuaiyun.com/mengjizhiyou/article/details/143731408

版权

统计专栏收录该内容

57 篇文章

订阅专栏

1 基本概念

BOX-COX变换是由博克斯与考克斯在1964年提出的一种应用非常广泛的变换，是对因变量y做如下变换：
在这里插入图片描述

BOX-COX变换是一个幂变换族，λ=0时，成为对数变换。

从概率分布角度看，当数据本身服从对数正态分布时，对数据做对数变换后其就服从正态分布。对数正态分布是右偏分布，有厚重的右尾。

从数据看，如果数据中一些数值很大，但是小数值的数据更密集，个数更多，大数值数据较稀疏，个数较少，这样的数据很可能服从对数正态分布，可以尝试对其做对数变换。

对于回归问题，可以考虑只对因变量做对数变换或者只对自变量做对数变换，或者同时对因变量和自变量做对数变换。

2 python实现

数据准备：
在这里插入图片描述
1）消除异方差性

分析异方差性，斯皮尔曼相关系数检验，如下：

# 异方差性检查
eres = result.resid
abse = abs(eres)
 
# spearman相关系数检验
cortest1 = scipy.stats.spearmanr(df['x1'], abse)
cortest2 = scipy.stats.spearmanr(df['x2'], abse)
print(cortest1, cortest2)

在这里插入图片描述
x2的pvalue的值小于0.05，则认为存在异方差性。

进行BOX-COX变换：

# boxcox变换
ynew, lamb = scipy.stats.boxcox(df['y'])
df['y'] = ynew

ynew是变换后的y值，lamb是λ的值。

再建模和异方差性的分析：

result2 = smf.ols('y~x1+x2', data=df).fit()
print(result2.summary())
 
# 计算残差
eres = result2.resid
 
# 异方差性检查
abse = abs(eres)
 
# spearman相关系数检验
cortest1 = scipy.stats.spearmanr(df['x1'], abse)
cortest2 = scipy.stats.spearmanr(df['x2'], abse)
print(cortest1, cortest2)

在这里插入图片描述
x1和x2的pvalue的值均大于0.05，则认为无异方差性。

2）消除自相关性

自相关性分析：

#DW检验
DW = sm.stats.durbin_watson(result.resid)
 
rho = 1-0.5*DW
print(DW)

使用DW检验，结果为1.47，查表得到DL=0.98，DU=1.54，DW值落在自相关性的区域里面，所以存在自相关性。

BOX-COX变换：

# boxcox变换
ynew, lamb = scipy.stats.boxcox(df['y'])
df['y'] = ynew
print(df)
result2 = smf.ols('y~x1+x2', data=df).fit()
print(result2.summary())
print(lamb)