Spark ML函数VectorAssembler

最新推荐文章于 2025-10-03 10:55:10 发布

原创最新推荐文章于 2025-10-03 10:55:10 发布 · 1.6w 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#spark

Spark 同时被 2 个专栏收录

3 篇文章

订阅专栏

机器学习

3 篇文章

订阅专栏

博客介绍了如何使用Spark的VectorAssembler工具将原始数据中的非指标列转换为特征向量，以便于后续的模型训练。这个transformer可以将多列数据整合成一列向量数据。

从源数据中提取特征指标数据，这是一个比较典型且通用的步骤，因为我们的原始数据集里，经常会包含一些非指标数据，如 ID，Description 等。为方便后续模型进行特征输入，需要部分列的数据转换为特征向量，并统一命名，VectorAssembler类完成这一任务。VectorAssembler是一个transformer，将多列数据转化为单列的向量列。

import org.apache.spark.ml.feature.VectorAssembler
import org.apache.spark.ml.linalg.Vectors

val dataset = spark.createDataFrame(
  Seq((0, 18, 1.0, Vectors.dense(0.0, 10.0, 0.5), 1.0))
).toDF("id", "hour", "mobile", "userFeatures", "clicked")

val assembler = new VectorAssembler()
  .setInputCols(Array("hour", "mobile", "userFeatures"))
  .setOutputCol("features")

val output = assembler.transform(dataset)
println(output.select("features", "clicked").first())

转化前的数据：


id | hour | mobile | userFeatures     | clicked
----|------|--------|------------------|---------
 0  | 18   | 1.0    | [0.0, 10.0, 0.5] | 1.0

转化后的数据：

id | hour | mobile | userFeatures     | clicked | features
----|------|--------|------------------|---------|-----------------------------
 0  | 18   | 1.0    | [0.0, 10.0, 0.5] | 1.0     | [18.0, 1.0, 0.0, 10.0, 0.5]