6、数据处理与探索性分析实用指南

数据处理与探索性分析实用指南

1. 变量标准化

在使用基于距离的技术时,可能需要对多个变量进行重新缩放。逐个标准化变量可能会很繁琐,我们可以使用以下函数同时标准化多个变量:

scale.many <- function(dat, column.nos) {
  nms <- names(dat)
  for(col in column.nos) {
    name <- paste(nms[col],".z", sep = "")
    dat[name] <- scale(dat[,col])
  }
  cat(paste("Scaled ", length(column.nos), " variable(s)\n"))
  dat
}

使用示例:

housing <- read.csv("BostonHousing.csv")
housing <- scale.many(housing, c(1,3,5:7))

运行上述代码后,会为变量 1、3、5、6 和 7 添加 z 值,并在原列名后加上 .z 。查看列名:

names(housing)

2. 数值数据分箱

有时候,我们需要将数值数据转换为分类数据或因子。例如,朴素贝叶斯分类要求所有变量(自变量和因变量)都是分类变量。以下是具体操作步骤: </

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值