数据探索性分析需要遵循3个步骤:第一步,要查看单个变量的分布情况,这样做事为了了解每一个变量值的分布情况并找出缺失值和离群点,以便确定变量是否需要进行转换或者是否应该用于建模。第二步,要查看因变量与自变量之间的关系,这可以用于特征选择。第三步,查看自变量之间的关系,以便删除冗余变量。
1、自变量为数值类型和分类类型,并分别求自变量与因变量的相关性
2、因变量为数值型时,对因变量进行分类:把因变量转化为分类类型
3、获取列联表的数据:
>table(train$y)
0 1
69984 4881
> as.numeric(table(train$y))[1]
[1] 69984
> totalgood <-as.numeric(table(train$y))[1]
> totalbad <- as.numeric(table(train$y))[2]