数据处理与探索性分析实用指南
1. 变量标准化
在使用基于距离的技术时,可能需要对多个变量进行重新缩放。逐个标准化变量可能会很繁琐,我们可以使用以下函数同时标准化多个变量:
scale.many <- function(dat, column.nos) {
nms <- names(dat)
for(col in column.nos) {
name <- paste(nms[col],".z", sep = "")
dat[name] <- scale(dat[,col])
}
cat(paste("Scaled ", length(column.nos), " variable(s)\n"))
dat
}
使用示例:
housing <- read.csv("BostonHousing.csv")
housing <- scale.many(housing, c(1,3,5:7))
运行上述代码后,会为变量 1、3、5、6 和 7 添加 z 值,并在原列名后加上 .z 。查看列名:
names(housing)
2. 数值数据分箱
有时候,我们需要将数值数据转换为分类数据或因子。例如,朴素贝叶斯分类要求所有变量(自变量和因变量)都是分类变量。以下是具体操作步骤: </
超级会员免费看
订阅专栏 解锁全文
1648

被折叠的 条评论
为什么被折叠?



