保险理赔严重程度分析与预测
1. 分类算法与监督回归算法
分类算法旨在从一组离散或连续值的输入中产生离散输出。而在本文中,我们主要关注监督回归算法。在使用机器学习模型时,超参数调优和交叉验证技术对于优化模型性能至关重要。
2. 超参数调优
超参数是那些不能直接从常规训练过程中学习到的参数。在实际训练开始前,通常会为超参数设置不同的值,训练不同的模型,然后通过测试来确定哪些参数组合效果最佳。常见的超参数示例如下:
- 树的叶子数、分箱数或深度
- 迭代次数
- 矩阵分解中的潜在因子数量
- 学习率
- 深度神经网络中的隐藏层数
- K-means 聚类中的簇数量
超参数调优是根据给定数据的性能选择合适超参数组合的技术,是从机器学习算法中获得有意义和准确结果的基本要求之一。
3. 交叉验证
交叉验证(也称为旋转估计)是一种用于评估统计分析和结果质量的模型验证技术。其目标是使模型能够泛化到独立的测试集。在交叉验证过程中,模型通常使用已知类型的数据集进行训练,而使用未知类型的数据集进行测试。交叉验证主要分为以下两种类型:
- 穷举交叉验证:包括留 p 个样本交叉验证和留一个样本交叉验证
- 非穷举交叉验证:包括 K 折交叉验证和重复随机子采样交叉验证
在大多数情况下,人们会使用 10 折交叉验证。具体步骤如下:
1. 将完整的训练数据划分为若干折(这里为 10 折)。
2. 对每一折运行整个流程,并为每一折训练一个机器学习模型。
3. 对于分类器,通过投票方案合并不同的模型;对于回归问题,则通
超级会员免费看
订阅专栏 解锁全文
9

被折叠的 条评论
为什么被折叠?



