数据集划分:R语言实现
数据集划分是机器学习和数据分析中常用的一项任务,它将原始数据集划分为训练集、验证集和测试集,以用于模型训练、调优和评估。在R语言中,有多种方法可以进行数据集划分,本文将介绍几种常用的方法,并提供相应的源代码。
- 随机划分
随机划分是最常用的数据集划分方法之一,它将数据集中的样本随机地划分为训练集和测试集。在R语言中,可以使用sample()函数来实现随机划分。以下是一个简单的示例:
# 假设原始数据集为data
set.seed(123) # 设置随机种子,保证结果可复现
indices <- sample(1:nrow(data), size = 0.7 * nrow(data), replace = FALSE) # 划分比例为70%训练集,30%测试集
train_data <- data[indices, ] # 训练集
test_data <- data[-indices, ] # 测试集
在上述代码中,我们首先使用sample()函数生成一个随机的样本索引,划分比例为70%的训练集和30%的测试集。然后,使用这些索引从原始数据集中提取相应的样本,得到训练集和测试集。
- 分层随机划分
当数据集中的类别不平衡时,分层随机划分是一种常用的划分方法。它保证了划分后的训练集和测试集中各个类别的样本比例与原始数据集中的比例相同。在R语言中,可以使用createDataPartition()<
本文介绍了R语言中数据集划分的三种方法:随机划分、分层随机划分和时间序列划分,适用于机器学习和数据分析。通过示例代码展示如何实现并强调实际应用可能需要调整。
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



