-
GD包的安装与导入
install.packages("GD")##下载一下GD包
library(GD)##载入我们所用的GD包
R语言的安装与配置详细R语言保姆级下载安装教程(R+Rtools+RStudio),附安装包
2.设置工作路径和读取文件
setwd("C:\\Users\\Cc\\Desktop\\新建文件夹")##CSV在的那个文件夹
data<-read.csv("1990.csv")##读取我们第一步做的包括了自变量和因变量的csv表
3.检查数据
检查数据中的缺失值
summary(data) # 查看数据的概况,包括缺失值
如果发现缺失值,可以考虑填补缺失值或删除缺失值所在的行。
data <- na.omit(data) # 删除所有包含缺失值的行
4.数据离散化
输入数据中的自变量数据具有连续变量,需要将其转换为类别变量,我们可以选择的离散化方式包括相等间隔法、自然间断点法、分位数分类法、几何间隔法与标准差法等5种不同的方法,分别对应以下第一句代码中的"equal"、"natural"、"quantile"、"geometric"与"sd"等5个选项,程序会自动从5中离散化方法中选择最适合每一连续变量的最优离散方法。
discmethod <-c("equal","