R语言|数据预处理

本文介绍了数据探索性分析的三个关键步骤:检查单个变量的分布情况;评估因变量与自变量之间的关系;以及审查自变量之间的联系,旨在帮助读者理解如何进行有效的数据预处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据探索性分析需要遵循3个步骤:第一步,要查看单个变量的分布情况,这样做事为了了解每一个变量值的分布情况并找出缺失值和离群点,以便确定变量是否需要进行转换或者是否应该用于建模。第二步,要查看因变量与自变量之间的关系,这可以用于特征选择。第三步,查看自变量之间的关系,以便删除冗余变量。

 

1、自变量为数值类型和分类类型,并分别求自变量与因变量的相关性

 

2、因变量为数值型时,对因变量进行分类:把因变量转化为分类类型

 

3、获取列联表的数据:

>table(train$y)

0     1
69984  4881
> as.numeric(table(train$y))[1]
[1] 69984
> totalgood <-as.numeric(table(train$y))[1]
> totalbad <- as.numeric(table(train$y))[2]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值