Azure SynapseML与SparkML分类任务对比实战-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00317/article/details/148506354

Azure SynapseML与SparkML分类任务对比实战

SynapseML 项目地址: https://gitcode.com/gh_mirrors/mm/mmlspark

概述

在大数据分析和机器学习领域，分类任务是常见的基础应用场景。本文将通过一个实际案例，对比使用传统SparkML库和Azure SynapseML库完成文本分类任务的不同实现方式。我们将以亚马逊图书评论的情感分析为例，预测用户评论是正面(评分>3)还是负面。

项目背景

Azure SynapseML（原MMLSpark）是一个构建在Apache Spark之上的开源分布式机器学习库，它简化了复杂机器学习工作流的构建过程。与原生SparkML相比，SynapseML提供了更高级的API抽象，让数据科学家能够用更简洁的代码实现相同的功能。

数据集准备

我们使用的数据集包含亚马逊图书评论，每条记录包含评论文本和评分。首先加载并查看数据：

rawData = spark.read.parquet("wasbs://publicwasb@mmlspark.blob.core.windows.net/BookReviewsFromAmazon10K.parquet")
rawData.show(5)

特征工程

为了模拟真实场景，我们添加了两个数值特征：

评论字数统计(wordCount)
平均词长(wordLength)

from pyspark.sql.functions import udf
from pyspark.sql.types import *

def wordCount(s):
    return len(s.split())

def wordLength(s):
    import numpy as np
    ss = [len(w) for w in s.split()]
    return round(float(np.mean(ss)), 2)

使用SynapseML的UDFTransformer转换特征：

from synapse.ml.stages import UDFTransformer

wordLengthTransformer = UDFTransformer(
    inputCol="text", outputCol="wordLength", udf=wordLengthUDF
)
wordCountTransformer = UDFTransformer(
    inputCol="text", outputCol="wordCount", udf=wordCountUDF
)

SparkML实现方式

使用原生SparkML需要手动完成以下步骤：

文本特征处理（分词、哈希）
数值特征与文本特征合并
标签类型转换
多模型训练与评估

from pyspark.ml.feature import Tokenizer, HashingTF, VectorAssembler

# 文本特征处理
tokenizer = Tokenizer(inputCol="text", outputCol="tokenizedText")
hashingScheme = HashingTF(inputCol="tokenizedText", outputCol="TextFeatures", numFeatures=10000)

# 特征合并
assembler = VectorAssembler(inputCols=["TextFeatures", "wordCount", "wordLength"], outputCol="features")

模型训练与选择：

from pyspark.ml.evaluation import BinaryClassificationEvaluator
from pyspark.ml.classification import LogisticRegression

# 训练多个不同超参数的模型
lrHyperParams = [0.05, 0.1, 0.2, 0.4]
logisticRegressions = [LogisticRegression(regParam=hyperParam) for hyperParam in lrHyperParams]

# 评估选择最佳模型
evaluator = BinaryClassificationEvaluator(rawPredictionCol="rawPrediction", metricName="areaUnderROC")
bestModel = max((model.fit(train) for model in logisticRegressions), 
               key=lambda m: evaluator.evaluate(m.transform(test)))

SynapseML实现方式

SynapseML通过高级API简化了上述流程：

TrainClassifier自动处理特征工程
FindBestModel自动选择最佳模型
ComputeModelStatistics一站式计算评估指标

from synapse.ml.train import TrainClassifier, ComputeModelStatistics
from synapse.ml.automl import FindBestModel

# 训练多个模型
lrmodels = [
    TrainClassifier(model=LogisticRegression(regParam=hyperParam), 
                   labelCol="label", numFeatures=10000).fit(train)
    for hyperParam in [0.05, 0.1, 0.2, 0.4]
]

# 自动选择最佳模型
bestModel = FindBestModel(evaluationMetric="AUC", models=lrmodels).fit(test)

# 评估验证集
metrics = ComputeModelStatistics().transform(bestModel.transform(validation))

技术对比

| 实现步骤 | SparkML方式 | SynapseML方式 | |----------------|--------------------------------------|-----------------------------------| | 特征工程 | 手动分词、哈希、合并特征 | 自动处理(通过TrainClassifier) | | 模型训练 | 需要循环训练多个模型 | 自动并行训练 | | 模型选择 | 手动编写评估逻辑 | FindBestModel自动选择 | | 评估指标计算 | 单一指标单独计算 | ComputeModelStatistics一站式输出 | | 代码复杂度 | 高(约30行核心代码) | 低(约10行核心代码) |