PySpark MLlib：逻辑回归模型训练过程（训练、评估、编解码、保存、读取）

最新推荐文章于 2025-10-24 15:09:22 发布

原创

最新推荐文章于 2025-10-24 15:09:22 发布 · 1.1k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#spark #python #逻辑回归

模型训练流程

没有做训练测试集划分，直接全量训练，全量测试

一、引入 Spark 环境

from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()

二、设置模型评估方法

# 评估
from pyspark.ml.evaluation import MulticlassClassificationEvaluator
def check(train_eval):
    f1_score = MulticlassClassificationEvaluator(predictionCol='prediction', labelCol='Type_idx', metricName='f1').evaluate(train_eval)
    acc_score = MulticlassClassificationEvaluator(predictionCol='prediction', labelCol='Type_idx', metricName='accuracy').evaluate(train_eval)
    loss = MulticlassClassificationEvaluator(predictionCol='prediction', labelCol='Type_idx', metricName='logLoss').evaluate(train_eval)
    precision = MulticlassClassificationEvaluator(predictionCol='prediction', labelCol='Type_idx', metricName='weightedPrecision').evaluate(train_eval)
    recall = MulticlassClassificationEvaluator(predictionCol='prediction', labelCol='Type_idx', metricName='weightedRecall').evaluate(train_eval)
    return pd