Python实现BOX-COX变换

1 基本概念

BOX-COX变换是由博克斯与考克斯在1964年提出的一种应用非常广泛的变换,是对因变量y做如下变换:
在这里插入图片描述
在这里插入图片描述
BOX-COX变换是一个幂变换族λ=0时,成为对数变换

从概率分布角度看,当数据本身服从对数正态分布时,对数据做对数变换后其就服从正态分布。对数正态分布是右偏分布,有厚重的右尾。

从数据看,如果数据中一些数值很大,但是小数值的数据更密集,个数更多,大数值数据较稀疏,个数较少,这样的数据很可能服从对数正态分布,可以尝试对其做对数变换。

对于回归问题,可以考虑只对因变量做对数变换或者只对自变量做对数变换,或者同时对因变量和自变量做对数变换。

2 python实现

数据准备:
在这里插入图片描述
1)消除异方差性

分析异方差性,斯皮尔曼相关系数检验,如下:

# 异方差性检查
eres = result.resid
abse = abs(eres)
 
# spearman相关系数检验
cortest1 = scipy.stats.spearmanr(df['x1'], abse)
cortest2 = scipy.stats.spearmanr(df['x2'], abse)
print(cortest1, cortest2)

在这里插入图片描述
x2pvalue的值小于0.05,则认为存在异方差性

进行BOX-COX变换:

# boxcox变换
ynew, lamb = scipy.stats.boxcox(df['y'])
df['y'] = ynew

ynew是变换后的y值,lambλ的值。

再建模和异方差性的分析:

result2 = smf.ols('y~x1+x2', data=df).fit()
print(result2.summary())
 
# 计算残差
eres = result2.resid
 
# 异方差性检查
abse = abs(eres)
 
# spearman相关系数检验
cortest1 = scipy.stats.spearmanr(df['x1'], abse)
cortest2 = scipy.stats.spearmanr(df['x2'], abse)
print(cortest1, cortest2)

在这里插入图片描述
x1x2pvalue的值均大于0.05,则认为无异方差性。

2)消除自相关性

自相关性分析:

#DW检验
DW = sm.stats.durbin_watson(result.resid)
 
rho = 1-0.5*DW
print(DW)

使用DW检验,结果为1.47,查表得到DL=0.98,DU=1.54,DW值落在自相关性的区域里面,所以存在自相关性

BOX-COX变换:

# boxcox变换
ynew, lamb = scipy.stats.boxcox(df['y'])
df['y'] = ynew
print(df)
result2 = smf.ols('y~x1+x2', data=df).fit()
print(result2.summary())
print(lamb)

再进行DW检验,结果为1.68,DW值落在无自相关性区域,所以消除了模型的自相关性

参考:https://blog.youkuaiyun.com/DL11007/article/details/128670981

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值