12、机器学习中的超参数调优与线性模型基础

机器学习中的超参数调优与线性模型基础

1. 免费午餐的陷阱

有句古老的经济学谚语说:“天下没有免费的午餐”。在机器学习中,即使像 AdaBoost 这样有显著价值的算法,也不能完全脱离这句谚语的范畴。虽然 AdaBoost 可以“现成使用”,即使用超参数的默认值,但要开发出好的模型,交叉验证等方法仍然不可或缺。

同样,对于“使用随机森林不可能过拟合”这一观点,我们需要正确理解。实际上,任何机器学习方法都可能过拟合。这里所说的“不可能过拟合”,指的是设置树的数量 s 过高不会导致过拟合,但树本身仍可能因节点中数据点的最小数量过小,或者包含过多特征而过拟合。

2. 寻找优质超参数组合

2.1 超参数组合概述

在机器学习中,我们通常关注的是超参数的组合。例如,在 k - NN 算法中使用 PCA 时,就有两个超参数:邻居数量 k 和主成分数量 m。我们的目标是找到 k 和 m 的良好组合。

许多机器学习方法有更多的超参数。例如,qeDT() 函数有 alpha、minsplit、minbucket、maxdepth 和 mtry 等超参数,我们需要找到这五个超参数的优质组合。超参数越多,找到合适组合的难度就越大。qeML 函数 qeFT() 就是为了简化这一搜索过程而设计的。

需要注意的是,虽然在机器学习讨论和一些软件文档中常提到寻找“最佳”超参数组合,但由于 p - hacking 问题,给定训练集的最佳组合可能并非对新数据预测的最佳组合。不过,通过学习 qeFT() 函数,我们能够可靠地确定良好的组合。

2.2 使用 qeFT() 进行网格搜索

2.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值