数据建模中的重采样、预测与模型导出技术
1. 自助法(Bootstrapping)
自助法的目标是更精确地评估模型在数据上的可靠性。与将数据划分为训练集和测试集不同,自助法是从原始数据集中有放回地随机抽取 n 个样本,重复 N 次(N 为迭代次数,n 为样本数量),每次迭代中同一案例可能多次出现。然后对每个样本独立进行分析,得出估计值的均值和标准差。
在 R 语言中使用 caret 包进行自助法的操作步骤如下:
# 指定自助法参数
CtrlBoot = trainControl(method="boot", number=1000)
# 以鸢尾花数据集为例,构建不同模型
# 朴素贝叶斯模型
modelNBboot = train(Species ~ ., data = iris,
trControl = CtrlBoot, method = "nb")
# C4.5 模型
modelC45boot = train(Species ~ ., data = iris,
trControl = CtrlBoot, method = "J48")
# C5.0 模型
modelC50boot = train(Species ~ ., data = iris,
trControl = CtrlBoot, method = "C5.0")
# CART 模型
modelCARTboot = train(Species ~ ., data = iris,
trControl = CtrlBoot, method = "rpart")
# 随机森林模型
modelRFboot = train(Species ~
超级会员免费看
订阅专栏 解锁全文
39

被折叠的 条评论
为什么被折叠?



