机器学习入门与深入:从基础概念到偏差-方差权衡
1. 机器学习基础概念
在机器学习中,训练集、测试集划分和交叉验证是非常基础的概念。这也是纯统计方法与机器学习方法存在显著差异的领域之一。在统计建模任务中,人们可能会进行回归分析、参数/非参数检验等操作;而在机器学习中,算法方法会结合对结果的迭代评估以及对模型的持续改进。
1.1 数据划分
机器学习建模通常从数据清洗开始,接下来的关键步骤是将数据划分为训练集和测试集。常见的划分比例是70 - 80%的训练数据和20 - 30%的测试数据。以80 - 20划分为例,80%的数据用于构建模型,剩下的20%用于测试最终模型的性能。
可以使用 createDataPartition 函数进行数据划分,示例代码如下:
training_index<- createDataPartition(diab$diabetes, p = 0.80, list = FALSE, times = 1)
length(training_index) # Number of items that we will select for the train set
nrow(diab) # The total number of rows in the dataset
# Creating the training set, this is the data we will use to build our model
diab_train<- diab[training_index,]
# Create the test set, thi
超级会员免费看
订阅专栏 解锁全文

871

被折叠的 条评论
为什么被折叠?



