r语言XGBoost

最新推荐文章于 2025-04-25 08:18:07 发布

原创

最新推荐文章于 2025-04-25 08:18:07 发布 · 1.4k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#r语言 #机器学习 #开发语言

该博客介绍了如何运用R语言的XGBoost库进行房价预测。首先，作者加载了必要的库，然后导入并划分了数据集为训练集、验证集和测试集。接着，通过dummyVars处理分类变量，并用XGBoost训练模型。在训练过程中，设置了超参数并进行了交叉验证。最后，展示了特征重要性图和SHAP值图，以及训练和测试集上的预测结果，评估了模型的预测性能。

library(xgboost)


library(tidyverse)
library(skimr)
library(DataExplorer)
library(caret)
library(pROC)


cPriceData <- read.csv(file.choose()) 

set.seed(42)
trains <- createDataPartition(
  y = cPriceData$price,
  p = 0.85,
  list = F,
  times = 1
)

trains2 <- sample(trains, nrow(cPriceData)*0.7)
valids <- setdiff(trains, trains2)

data_train <- cPriceData[trains2, ]
data_valid <- cPriceData[valids, ]
data_test <- cPriceData[-trains, ]

#训练集
dvfunc <- dummyVars(~., data = data_train[, 1:5], fullRank = T)
data_trainx <- predict(dvfunc, newdata = data_train[, 1:5])
data_trainy <- data_train$price
 
data_validx <- predict(dvfunc, newdata = data_valid[, 1:5])
data_validy <- data_valid$price

data_testx <- predict(dvfunc, newdata = data_test[, 1:5])
data_testy <- data_test$price

dtrain <- xgb.DMatrix(data = data_trainx, label = data_trainy)
dvalid <- xgb.DMatrix(data = data_validx, label = data_validy)
dtest <- xgb.DMatrix(da