数据整理，R

R语言数据预处理实战

最新推荐文章于 2024-08-22 17:46:13 发布

原创最新推荐文章于 2024-08-22 17:46:13 发布 · 257 阅读

0 ·

CC 4.0 BY-SA版权

R 专栏收录该内容

35 篇文章

订阅专栏

本文详细介绍使用R语言进行数据预处理的过程，包括设置工作目录、安装必要包、缺失值处理及并行处理等关键步骤。通过具体实例展示了如何利用R语言强大的数据处理功能来清洗和准备数据。

### the first step: set your working directory
setwd("C:/users/TaoJie/Desktop/2016-2017新学期经验似然/drugsatfda")
### R中的文件路径应把Windows系统默认的"\"替换为"/"
install.packages("readr")
install.packages("recipes")
install.packages("doParallel")
install.packages("backports")
### load packages to be used, if not installed, please use ##install.packages("yourPackage")
library(readr)
require(ggplot2)
require(dplyr)
require(tidyr)
library(caret)
library(corrplot)
require(Hmisc)
require(parallel)
library(doParallel)
require(ggthemes)
library(foreach)
library(VIM)
library(mice)
# parallel processing set up
n_Cores <- detectCores()##检测你的电脑的CPU核数
cluster_Set <- makeCluster(n_Cores)##进行集群
registerDoParallel(cluster_Set)
dir()
TE=read.table("TE.txt",sep="")
head(TE)
fix(TE)
str(TE)
describe(TE)
###missing values
## set 30 numbers in the first column into NA
set.seed(1001)
random_Number <- sample(1:16768,100)
TE_Original <- TE
TE_Original[random_Number,3] <- NA
describe(TE_Original)
fix(TE_Original)
aggr(TE_Original, prop = FALSE, numbers = TRUE)

### impute missing data
original_Impute <- preProcess(TE_Original,method="knnImpute")
TE_Original <- predict(original_Impute,TE_Original)

imp <- mice(data =TE_Original, m = 5)
imp$imp
### compare results of imputation
compare_Imputation <- data.frame(
TE[random_Number,3],
TE_Original[random_Number,3]
)
compare_Imputation