R语言之数据预处理(下)

本文介绍了R语言中数据预处理的方法,包括处理高度相关变量的算法,通过计算相关系数矩阵并设置阈值来消除冗余特征;探讨了稀疏变量对模型拟合的影响,提出识别稀疏变量的两个标准;同时讲解了名义变量的编码,推荐使用caret包的dummyVars()函数进行转换操作。

处理高度相关变量算法:

1.计算自变量的相关系数矩阵
2.找出相关系数绝对值最大的那对自变量(a和b)
3.计算a和其他自变量相关系数的均值,对b也做同样操作
4.若a的平均相关系数更大,则将a移除,否则移除b
5,重复2-4,直到所有相关系数的绝对值都低于设定的阈值为止。

#结果返回需要删除的列号,变量相关性在0.75左右,findCorrelation()为carat包中的函数
> highCorr=findCorrelation(cor(sdat),cutoff=.75)
> sdat=sdat[-highCorr]
> cor(sdat)
                 income  store_exp online_exp store_trans online_trans
income        1.0000000  0.6005675  0.5202335   0.7077065   -0.3585446
store_exp     0.6005675  1.0000000  0.5349525   0.5399141   -0.1367433
online_exp    0.5202335  0.5349525  1.0000000   0.4420638    0.2256370
store_trans   0.7077065  0.5399141  0.4420638   1.0000000   -0.4367544
online_trans -0.3585446 -0.136743
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值