机器学习模型构建:Scikit-learn与PySpark实战
在机器学习领域,构建、训练和评估模型是核心任务。本文将详细介绍如何使用Scikit-learn和PySpark构建逻辑回归模型,并进行训练、评估和验证。
1. Scikit-learn模型验证
在Scikit-learn中,我们可以使用k折交叉验证来比较不同的超参数值。具体步骤如下:
1.1 定义超参数和数据折叠
首先,我们要调整的超参数是异常值相对于正常数据点的权重。默认情况下,两者权重相等。我们定义一个权重列表进行迭代:
anomaly_weights = [1, 5, 10, 15]
然后,定义折叠数并初始化数据折叠生成器:
num_folds = 5
from sklearn.model_selection import KFold
kfold = KFold(n_splits=num_folds, shuffle=True, random_state=2020)
KFold() 函数将传入的数据分成 num_folds 个不同的分区。每次一个折叠作为验证集,其余折叠用于训练。
1.2 定义验证脚本
接下来,我们定义验证脚本:
import numpy as np
f
超级会员免费看
订阅专栏 解锁全文
660

被折叠的 条评论
为什么被折叠?



