Spark ML包中的几种归一化方法总结

最新推荐文章于 2025-07-09 17:43:31 发布

原创

最新推荐文章于 2025-07-09 17:43:31 发布 · 1w 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#spark #数据 #归一化

本文总结了Spark ML库中的四种归一化方法：Normalizer（行向量单位范数）、StandardScaler（0均值单位标准差）、MinMaxScaler（特征映射到[0, 1]区间）和MaxAbsScaler（特征变换到[-1, 1]区间）。这些方法适用于不同场景，确保数据的可比性和算法的稳定性。" 113717106,10537176,使用MD5加密实现帆软单点登录密码验证,"['帆软单点登录', '密码加密', '身份验证']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

org.apache.spark.ml.feature包中包含了4种不同的归一化方法：

Normalizer
StandardScaler
MinMaxScaler
MaxAbsScaler

有时感觉会容易混淆，借助官方文档和实际数据的变换，在这里做一次总结。

原文地址：http://www.neilron.xyz/spark-ml-feature-scaler/

0 数据准备

import org.apache.spark.ml.linalg.Vectors

val dataFrame = spark.createDataFrame(Seq(
  (0, Vectors.dense(1.0, 0.5, -1.0)),
  (1, Vectors.dense(2.0, 1.0, 1.0)),
  (2, Vectors.dense(4.0, 10.0, 2.0))
)).toDF("id", "features")

dataFrame.show

// 原始数据
+---+--------------+
| id|      features|
+---+--------------+
|  0|[1.0,0.5,-1.0]|
|  1| [2.0,1.0,1.0]|
|  2|[4.0,10.0,2.0]|
+---+--------------+