16、机器学习入门与深入:从基础概念到偏差-方差权衡

机器学习入门与深入:从基础概念到偏差-方差权衡

1. 机器学习基础概念

在机器学习中,训练集、测试集划分和交叉验证是非常基础的概念。这也是纯统计方法与机器学习方法存在显著差异的领域之一。在统计建模任务中,人们可能会进行回归分析、参数/非参数检验等操作;而在机器学习中,算法方法会结合对结果的迭代评估以及对模型的持续改进。

1.1 数据划分

机器学习建模通常从数据清洗开始,接下来的关键步骤是将数据划分为训练集和测试集。常见的划分比例是70 - 80%的训练数据和20 - 30%的测试数据。以80 - 20划分为例,80%的数据用于构建模型,剩下的20%用于测试最终模型的性能。

可以使用 createDataPartition 函数进行数据划分,示例代码如下:

training_index<- createDataPartition(diab$diabetes, p = 0.80, list = FALSE, times = 1)
length(training_index) # Number of items that we will select for the train set
nrow(diab) # The total number of rows in the dataset
# Creating the training set, this is the data we will use to build our model
diab_train<- diab[training_index,]
# Create the test set, thi
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值