Spark ML Pipelines 核心抽象

最新推荐文章于 2025-11-24 15:52:28 发布

原创最新推荐文章于 2025-11-24 15:52:28 发布 · 509 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#spark-ml #pipelines #机器学习

大数据专栏收录该内容

127 篇文章

订阅专栏

Spark ML Pipelines 核心抽象

Spark ML Pipelines 的核心设计基于四个关键抽象，它们共同构建了模块化、可扩展的机器学习工作流：

1. Transformer（转换器）

功能：将 DataFrame 转换为另一个 DataFrame
核心方法：.transform(dataset)
特点：
- 无状态操作（使用预定义的转换规则）
- 既可执行特征工程（如 VectorAssembler），也可进行预测（如训练好的模型）

示例类型：

Tokenizer（文本分词） 
VectorAssembler（特征组合）
StandardScalerModel（标准化模型）
LogisticRegressionModel（分类模型）

2. Estimator（估计器）

功能：从数据中学习，生成 Transformer
核心方法：.fit(dataset)
特点：
- 有状态操作（需从数据中学习参数）
- 训练过程会产生模型（即 Transformer）

示例类型：

LogisticRegression（分类算法）
StandardScaler（特征缩放器）
KMeans（聚类算法）

3. Pipeline（管道）

功能：将多个 Transformer/Estimator 组织成有序工作流
核心方法：.fit(dataset) → 生成 PipelineModel
特点：
- 顺序执行各阶段（Stage）
- 自动处理阶段间数据传递
- 输出 PipelineModel（本身也是 Transformer）

4. Parameter（参数）

功能：统一API管理所有组件的参数
实现方式：
- 通过 Params trait 实现
- 提供 set(param, value) 和 get(param) 方法
参数类型：
```
IntParam, DoubleParam, ParamMap
```

Pipeline 如何串联多个步骤

串联机制图解

原始数据 → [Transformer1] → [Estimator2] → [Transformer3] → 最终输出
           |            |             |
        (直接转换)   (训练生成模型)   (使用模型转换)

执行流程详解（通过 `.fit()` 方法）

阶段初始化：

val pipeline = new Pipeline().setStages(Array(stage1, stage2, stage3))

顺序执行（伪代码逻辑）：

def fit(dataset: DataFrame): PipelineModel = {
  var currentData = dataset
  val transformers = ListBuffer[Transformer]()
  
  for (stage <- stages) {
    stage match {
      case t: Transformer => 
        currentData = t.transform(currentData)
        transformers += t
        
      case e: Estimator =>
        val model = e.fit(currentData)         # 训练生成Transformer
        currentData = model.transform(currentData)
        transformers += model                  # 将模型加入序列
    }
  }
  new PipelineModel(transformers.toArray)      # 生成最终管道模型
}

PipelineModel 的预测流程：

def transform(dataset: DataFrame): DataFrame = {
  transformers.foldLeft(dataset)((df, t) => t.transform(df))
}

关键串联特性

自动数据流传递：
- 每个阶段的输出 DataFrame 自动成为下一阶段的输入
- 无需手动管理中间数据集
智能阶段处理：
- 遇到 Estimator 时自动调用 .fit() 生成 Transformer
- 所有 Transformer 按顺序执行 .transform()

统一接口封装：

// 训练时：整个管道作为Estimator
val model = pipeline.fit(trainingData)

// 预测时：PipelineModel作为Transformer
val results = model.transform(testData)

参数穿透能力：

// 可统一设置所有组件的参数
val paramMap = ParamMap(
  lr.regParam -> 0.1,
  vectorAssembler.inputCols -> Array("f1", "f2")
)
model.fit(trainingData, paramMap)

实战示例：文本分类管道

import org.apache.spark.ml.{Pipeline, PipelineModel}
import org.apache.spark.ml.feature.{Tokenizer, HashingTF, IDF}
import org.apache.spark.ml.classification.LogisticRegression

// 1. 构建阶段
val tokenizer = new Tokenizer()
  .setInputCol("text")
  .setOutputCol("words")

val hashingTF = new HashingTF()
  .setInputCol("words")
  .setOutputCol("rawFeatures")
  .setNumFeatures(1000)

val idf = new IDF()
  .setInputCol("rawFeatures")
  .setOutputCol("features")

val lr = new LogisticRegression()
  .setMaxIter(10)
  .setRegParam(0.01)

// 2. 创建管道
val pipeline = new Pipeline()
  .setStages(Array(tokenizer, hashingTF, idf, lr))

// 3. 训练管道（自动串联执行）
val model: PipelineModel = pipeline.fit(trainingData)

// 4. 部署使用
val predictions = model.transform(testData)

Pipeline 串联的核心价值

全流程封装：
- 将特征工程、模型训练封装为单一对象
- 确保训练/预测时处理逻辑一致

避免数据泄露：

// 交叉验证时自动在每折内部分别计算IDF
val cv = new CrossValidator().setEstimator(pipeline)

简化部署：

// 保存/加载完整流程
model.write.overwrite().save("/path/to/model")
val sameModel = PipelineModel.load("/path/to/model")

参数统一优化：

// 可同时优化特征处理和模型参数
val paramGrid = new ParamGridBuilder()
  .addGrid(hashingTF.numFeatures, Array(1000, 2000))
  .addGrid(lr.regParam, Array(0.01, 0.1))
  .build()