SynapseML 结合 HyperOpt 实现超参数调优实战指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01181/article/details/148506383

SynapseML 结合 HyperOpt 实现超参数调优实战指南

SynapseML microsoft/SynapseML: 是一个开源的机器学习框架，用于构建和部署人工智能应用。它提供了丰富的机器学习算法和工具，可以帮助开发者快速构建 AI 应用。特点包括易于使用、高性能、支持多种机器学习算法等。项目地址: https://gitcode.com/gh_mirrors/sy/SynapseML

前言

在大规模机器学习场景中，超参数调优是一个关键但耗时的环节。本文将介绍如何利用 SynapseML 和 HyperOpt 这两个强大的工具，在分布式环境下高效地进行超参数优化。

技术背景

SynapseML 简介

SynapseML 是一个开源的分布式机器学习库，它构建在 Apache Spark 之上，提供了简单、可组合且分布式的 API，支持多种机器学习任务，包括文本分析、计算机视觉、异常检测等。

HyperOpt 简介

HyperOpt 是一个 Python 库，专门用于在复杂搜索空间上进行串行和并行优化，支持实值、离散和条件维度等多种参数类型。

环境准备

在开始之前，需要确保以下环境已就绪：

安装必要的 Python 包：

%pip install hyperopt mlflow

启用 MLflow 自动日志记录：

import mlflow
mlflow.pyspark.ml.autolog()

第一部分：基础模型训练

数据准备

我们使用加州住房数据集，该数据集包含 20,640 条记录和 8 个特征：

from sklearn.datasets import fetch_california_housing
california = fetch_california_housing()

将数据转换为 Spark DataFrame 并划分为训练集和测试集：

from pyspark.ml.feature import VectorAssembler

featurizer = VectorAssembler(inputCols=feature_cols, outputCol="features")
data = featurizer.transform(df)["target", "features"]
train_data, test_data = data.randomSplit([0.75, 0.25], seed=42)

模型训练函数

定义一个使用 LightGBM 进行回归训练的函数：

from synapse.ml.lightgbm import LightGBMRegressor

def train_tree(alpha, learningRate, numLeaves, numIterations):
    lgr = LightGBMRegressor(
        objective="quantile",
        alpha=alpha,
        learningRate=learningRate,
        numLeaves=numLeaves,
        labelCol="target",
        numIterations=numIterations,
    )
    
    model = lgr.fit(train_data)
    return model

第二部分：超参数调优

定义优化目标

将训练函数包装为 HyperOpt 可优化的形式：

from hyperopt import fmin, tpe, hp, STATUS_OK

def train_with_hyperopt(params):
    alpha = params["alpha"]
    learningRate = params["learningRate"]
    numLeaves = int(params["numLeaves"])
    numIterations = int(params["numIterations"])
    
    model, r_squared = train_tree(alpha, learningRate, numLeaves, numIterations)
    return {"loss": -r_squared, "status": STATUS_OK}

定义搜索空间

设置四个关键超参数的搜索范围：

space = {
    "alpha": hp.uniform("alpha", 0, 1),
    "learningRate": hp.uniform("learningRate", 0, 1),
    "numLeaves": hp.uniformint("numLeaves", 30, 50),
    "numIterations": hp.uniformint("numIterations", 20, 100),
}

执行超参数优化

使用 TPE (Tree-structured Parzen Estimator) 算法进行优化：

algo = tpe.suggest
best_params = fmin(fn=train_with_hyperopt, space=space, algo=algo, max_evals=8)

重要提示：

不要使用 Spark 试验类，因为 SynapseML 已经是分布式计算框架
评估次数 (max_evals) 根据计算资源和时间预算合理设置

使用最优参数重新训练

best_alpha = best_params["alpha"]
best_learningRate = best_params["learningRate"]
best_numIterations = int(best_params["numIterations"])
best_numLeaves = int(best_params["numLeaves"])

final_model = train_tree(best_alpha, best_learningRate, best_numIterations, best_numLeaves)

结果对比

比较调优前后的模型性能：

initial_score = evaluate(initial_model, test_data)
final_score = evaluate(final_model, test_data)

print(f"初始模型 R²: {initial_score:.4f}")
print(f"调优后模型 R²: {final_score:.4f}")
print(f"性能提升: {(final_score-initial_score)/initial_score*100:.2f}%")