使用Microsoft SynapseML进行乳腺癌分类的超参数随机搜索调优实战-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00796/article/details/148506384

使用Microsoft SynapseML进行乳腺癌分类的超参数随机搜索调优实战

SynapseML microsoft/SynapseML: 是一个开源的机器学习框架，用于构建和部署人工智能应用。它提供了丰富的机器学习算法和工具，可以帮助开发者快速构建 AI 应用。特点包括易于使用、高性能、支持多种机器学习算法等。项目地址: https://gitcode.com/gh_mirrors/sy/SynapseML

前言

在机器学习项目中，选择合适的模型超参数对模型性能有着至关重要的影响。Microsoft SynapseML作为一个强大的分布式机器学习库，提供了自动化超参数调优的功能，能够帮助数据科学家高效地找到最优模型配置。本文将以乳腺癌分类任务为例，详细介绍如何使用SynapseML中的随机搜索方法进行超参数调优。

环境准备与数据加载

首先需要确保已安装SynapseML库。我们使用乳腺癌数据集作为示例数据，该数据集包含肿瘤特征和对应的良性/恶性标签。

# 加载数据
data = spark.read.parquet(
    "wasbs://publicwasb@mmlspark.blob.core.windows.net/BreastCancer.parquet"
).cache()

# 将数据分为调优集和测试集
tune, test = data.randomSplit([0.80, 0.20])
tune.limit(10).toPandas()

模型选择与初始化

我们将比较三种常见的分类算法：

逻辑回归(Logistic Regression)
随机森林(Random Forest)
梯度提升树(GBT)

from synapse.ml.automl import TuneHyperparameters
from synapse.ml.train import TrainClassifier
from pyspark.ml.classification import (
    LogisticRegression,
    RandomForestClassifier,
    GBTClassifier,
)

# 初始化基础模型
logReg = LogisticRegression()
randForest = RandomForestClassifier()
gbt = GBTClassifier()

# 包装为SynapseML可用的训练器
smlmodels = [logReg, randForest, gbt]
mmlmodels = [TrainClassifier(model=model, labelCol="Label") for model in smlmodels]

构建超参数搜索空间

SynapseML提供了灵活的HyperparamBuilder来定义搜索空间。我们可以为每个模型指定不同的超参数范围：

from synapse.ml.automl import *

paramBuilder = (
    HyperparamBuilder()
    # 逻辑回归的正则化参数范围
    .addHyperparam(logReg, logReg.regParam, RangeHyperParam(0.1, 0.3))
    # 随机森林的树数量和最大深度
    .addHyperparam(randForest, randForest.numTrees, DiscreteHyperParam([5, 10]))
    .addHyperparam(randForest, randForest.maxDepth, DiscreteHyperParam([3, 5]))
    # GBT的最大分箱数和最大深度
    .addHyperparam(gbt, gbt.maxBins, RangeHyperParam(8, 16))
    .addHyperparam(gbt, gbt.maxDepth, DiscreteHyperParam([3, 5]))
)

searchSpace = paramBuilder.build()
randomSpace = RandomSpace(searchSpace)

这里我们使用了两种参数类型：

RangeHyperParam: 在连续范围内随机取值
DiscreteHyperParam: 在离散值集合中随机选择

执行超参数调优

使用TuneHyperparameters进行随机搜索调优：

bestModel = TuneHyperparameters(
    evaluationMetric="accuracy",  # 评估指标
    models=mmlmodels,            # 模型列表
    numFolds=2,                  # 交叉验证折数
    numRuns=len(mmlmodels) * 2,  # 总运行次数
    parallelism=1,               # 并行度
    paramSpace=randomSpace.space(),  # 参数空间
    seed=0,                      # 随机种子
).fit(tune)

关键参数说明：

numRuns: 控制搜索的广度，值越大探索越充分但耗时越长
parallelism: 在集群环境下可提高并行度加速调优
numFolds: 交叉验证折数影响评估的稳定性

结果分析与模型评估

调优完成后，我们可以查看最佳模型的信息：

print(bestModel.getBestModelInfo())  # 最佳模型参数信息
print(bestModel.getBestModel())      # 最佳模型管道

在测试集上评估模型性能：

from synapse.ml.train import ComputeModelStatistics

prediction = bestModel.transform(test)
metrics = ComputeModelStatistics().transform(prediction)
metrics.limit(10).toPandas()

调优策略建议

参数空间设计:
- 对于连续参数(如学习率)，使用RangeHyperParam
- 对于离散参数(如树的数量)，使用DiscreteHyperParam
- 初始范围可以设置较宽，逐步缩小
资源分配:
- 小规模数据可增加numRuns进行充分搜索
- 大规模数据可提高parallelism加速过程
评估指标选择:
- 分类问题常用accuracy, AUC等
- 可根据业务需求自定义指标