机器学习模型的超参数调优、管道优化及管理部署
1. 超参数调优基础
在机器学习中,确定随机森林中树的最佳数量和树的最大深度等超参数是关键步骤,这个过程被称为超参数调优。超参数与普通参数不同,它控制着模型的学习过程或结构,且在训练过程中不会被学习。例如,随机森林中的树的数量和最大深度就是可调整的超参数。
2. k - 折交叉验证
为了确定最佳的超参数值,不能简单地使用训练集或测试集。若使用训练集,模型可能会过拟合,难以泛化到未见过的数据;若使用测试集,测试集就不再是“未见过的数据”,无法验证模型的泛化能力。因此,需要引入验证数据集。
一种方法是将数据按 60/20/20 的比例划分为训练集、验证集和测试集。但这种方法会损失 25% 的训练数据,影响模型性能。k - 折交叉验证技术可以解决这个问题。具体操作如下:
1. 将数据集划分为训练集和测试集。
2. 把训练数据分成 k 个子集(即“折”),例如 k = 3。
3. 对于给定的超参数配置,在 k - 1 折上训练模型,并在剩余的一折上进行评估,重复这个过程 k 次。
4. 平均这 k 次验证数据集的性能,以此作为模型在未见过数据上性能的代理。
5. 对所有不同的超参数配置重复上述过程,找出最优配置。
下面是 k - 折交叉验证的 mermaid 流程图:
graph LR
A[划分数据集为训练集和测试集] --> B[将训练集分成 k 折]
B --> C[选择超参数配置]
C --> D[在 k - 1 折上训
超级会员免费看
订阅专栏 解锁全文
1189

被折叠的 条评论
为什么被折叠?



