SynapseML分类任务实战：SparkML与SynapseML对比指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00751/article/details/148506377

SynapseML分类任务实战：SparkML与SynapseML对比指南

SynapseML microsoft/SynapseML: 是一个开源的机器学习框架，用于构建和部署人工智能应用。它提供了丰富的机器学习算法和工具，可以帮助开发者快速构建 AI 应用。特点包括易于使用、高性能、支持多种机器学习算法等。项目地址: https://gitcode.com/gh_mirrors/sy/SynapseML

概述

在机器学习项目中，分类任务是常见的工作场景。本文将通过一个实际案例——基于亚马逊图书评论预测用户评分（好评或差评），对比使用传统SparkML和SynapseML两种不同方式实现分类任务的差异。我们将展示SynapseML如何简化机器学习流程，同时保持与SparkML相同的性能表现。

项目背景

我们的任务是构建一个分类模型，根据用户对图书的文本评论内容，预测该评论属于好评（评分>3）还是差评。这个案例具有典型性，因为：

数据包含文本特征（评论内容）
需要处理混合类型特征（文本+数值）
涉及模型选择和超参数调优

数据准备

我们使用的数据集包含图书评论及其评分信息。首先加载并查看数据：

rawData = spark.read.parquet("wasbs://publicwasb@mmlspark.blob.core.windows.net/BookReviewsFromAmazon10K.parquet")
rawData.show(5)

为了增加任务复杂性，我们添加了两个数值特征：

评论词数(wordCount)
平均词长(wordLength)

from pyspark.sql.functions import udf
from pyspark.sql.types import *

def wordCount(s):
    return len(s.split())

def wordLength(s):
    import numpy as np
    ss = [len(w) for w in s.split()]
    return round(float(np.mean(ss)), 2

wordLengthUDF = udf(wordLength, DoubleType())
wordCountUDF = udf(wordCount, IntegerType())

使用SynapseML的UDFTransformer转换特征：

from synapse.ml.stages import UDFTransformer

wordLengthTransformer = UDFTransformer(
    inputCol="text", outputCol="wordLength", udf=wordLengthUDF
)
wordCountTransformer = UDFTransformer(
    inputCol="text", outputCol="wordCount", udf=wordCountUDF
)

SparkML实现方式

使用传统SparkML实现需要以下步骤：

特征工程：
- 文本分词(Tokenizer)
- 特征哈希(HashingTF)
- 合并数值特征(VectorAssembler)
数据预处理：
- 转换标签列类型
- 划分训练/测试/验证集
模型训练与选择：
- 训练多个不同超参数的逻辑回归模型
- 在测试集上评估性能
- 选择最佳模型
模型评估：
- 在验证集上评估最终模型

# 特征工程
from pyspark.ml.feature import Tokenizer, HashingTF, VectorAssembler

tokenizer = Tokenizer(inputCol="text", outputCol="tokenizedText")
hashingScheme = HashingTF(inputCol="tokenizedText", outputCol="TextFeatures", numFeatures=10000)
assembler = VectorAssembler(inputCols=["TextFeatures", "wordCount", "wordLength"], outputCol="features")

# 模型训练与选择
from pyspark.ml.evaluation import BinaryClassificationEvaluator
from pyspark.ml.classification import LogisticRegression

train, test, validation = processedData.randomSplit([0.60, 0.20, 0.20], seed=123)
lrHyperParams = [0.05, 0.1, 0.2, 0.4]
logisticRegressions = [LogisticRegression(regParam=hyperParam) for hyperParam in lrHyperParams]

# 选择最佳模型
bestMetric = max(metrics)
bestModel = models[metrics.index(bestMetric)]

SynapseML实现方式

SynapseML提供了更简洁的API，显著简化了工作流程：

TrainClassifier：自动处理特征工程
FindBestModel：自动选择最佳模型
ComputeModelStatistics：一站式计算多种评估指标

from synapse.ml.train import TrainClassifier, ComputeModelStatistics
from synapse.ml.automl import FindBestModel

# 数据准备
train, test, validation = data.randomSplit([0.60, 0.20, 0.20], seed=123)

# 模型训练与选择
lrHyperParams = [0.05, 0.1, 0.2, 0.4]
logisticRegressions = [LogisticRegression(regParam=hyperParam) for hyperParam in lrHyperParams]
lrmodels = [TrainClassifier(model=lrm, labelCol="label", numFeatures=10000).fit(train) for lrm in logisticRegressions]

bestModel = FindBestModel(evaluationMetric="AUC", models=lrmodels).fit(test)

# 模型评估
metrics = ComputeModelStatistics().transform(predictions)

技术对比分析

| 方面 | SparkML | SynapseML | |------|---------|-----------| | 代码复杂度 | 高，需要手动处理特征工程和模型选择 | 低，提供高级API封装常见模式 | | 特征工程 | 需要显式实现 | 自动处理，通过TrainClassifier | | 模型选择 | 需要手动实现 | FindBestModel自动完成 | | 评估指标 | 每次只能计算一个指标 | ComputeModelStatistics一次性计算多个指标 | | 可维护性 | 较低，代码量大 | 较高，逻辑清晰 |