二十种特征变换方法及Spark MLlib调用实例(Scala/Java/python)(二)

本文介绍了多种用于特征转换的机器学习算法,包括VectorIndexer、Normalizer、StandardScaler等,详细阐述了每种算法的工作原理及应用场景,并提供了Spark平台上的调用示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

VectorIndexer

算法介绍:

        VectorIndexer解决数据集中的类别特征Vector。它可以自动识别哪些特征是类别型的,并且将原始值转换为类别指标。它的处理流程如下:

1.获得一个向量类型的输入以及maxCategories参数。

2.基于原始数值识别哪些特征需要被类别化,其中最多maxCategories需要被类别化。

3.对于每一个类别特征计算0-based类别指标。

4.对类别特征进行索引然后将原始值转换为指标。

       索引后的类别特征可以帮助决策树等算法处理类别型特征,并得到较好结果。

       在下面的例子中,我们读入一个数据集,然后使用VectorIndexer来决定哪些特征需要被作为非数值类型处理,将非数值型特征转换为他们的索引。

调用示例:

Scala:

[plain]  view plain  copy
  1. import org.apache.spark.ml.feature.VectorIndexer  
  2.   
  3. val data = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")  
  4.   
  5. val indexer = new VectorIndexer()  
  6.   .setInputCol("features")  
  7.   .setOutputCol("indexed")  
  8.   .setMaxCategories(10)  
  9.   
  10. val indexerModel = indexer.fit(data)  
  11.   
  12. val categoricalFeatures: Set[Int] = indexerModel.categoryMaps.keys.toSet  
  13. println(s"Chose ${categoricalFeatures.size} categorical features: " +  
  14.   categoricalFeatures.mkString(", "))  
  15.   
  16. // Create new column "indexed" with categorical values transformed to indices  
  17. val indexedData = indexerModel.transform(data)  
  18. indexedData.show()  

Java:

[java]  view plain  copy
  1. import java.util.Map;  
  2.   
  3. import org.apache.spark.ml.feature.VectorIndexer;  
  4. import org.apache.spark.ml.feature.VectorIndexerModel;  
  5. import org.apache.spark.sql.Dataset;  
  6. import org.apache.spark.sql.Row;  
  7.   
  8. Dataset<Row> data = spark.read().format("libsvm").load("data/mllib/sample_libsvm_data.txt");  
  9.   
  10. VectorIndexer indexer = new VectorIndexer()  
  11.   .setInputCol("features")  
  12.   .setOutputCol("indexed")  
  13.   .setMaxCategories(10);  
  14. VectorIndexerModel indexerModel = indexer.fit(data);  
  15.   
  16. Map<Integer, Map<Double, Integer>> categoryMaps = indexerModel.javaCategoryMaps();  
  17. System.out.print("Chose " + categoryMaps.size() + " categorical features:");  
  18.   
  19. for (Integer feature : categoryMaps.keySet()) {  
  20.   System.out.print(" " + feature);  
  21. }  
  22. System.out.println();  
  23.   
  24. // Create new column "indexed" with categorical values transformed to indices  
  25. Dataset<Row> indexedData = indexerModel.transform(data);  
  26. indexedData.show();  

Python:

[python]  view plain  copy
  1. from pyspark.ml.feature import VectorIndexer  
  2.   
  3. data = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")  
  4. indexer = VectorIndexer(inputCol="features", outputCol="indexed", maxCategories=10)  
  5. indexerModel = indexer.fit(data)  
  6.   
  7. # Create new column "indexed" with categorical values transformed to indices  
  8. indexedData = indexerModel.transform(data)  
  9. indexedData.show()  

Normalizer(正则化)

算法介绍:

        Normalizer是一个转换器,它可以将多行向量输入转化为统一的形式。参数为p(默认值:2)来指定正则化中使用的p-norm。正则化操作可以使输入数据标准化并提高后期学习算法的效果。

      下面的例子展示如何读入一个libsvm格式的数据,然后将每一行转换为 以及 形式。

调用示例:

Scala:

[plain]  view plain  copy
  1. import org.apache.spark.ml.feature.Normalizer  
  2.   
  3. val dataFrame = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")  
  4.   
  5. // Normalize each Vector using $L^1$ norm.  
  6. val normalizer = new Normalizer()  
  7.   .setInputCol("features")  
  8.   .setOutputCol("normFeatures")  
  9.   .setP(1.0)  
  10.   
  11. val l1NormData = normalizer.transform(dataFrame)  
  12. l1NormData.show()  
  13.   
  14. // Normalize each Vector using $L^\infty$ norm.  
  15. val lInfNormData = normalizer.transform(dataFrame, normalizer.p -> Double.PositiveInfinity)  
  16. lInfNormData.show()  

Java:

[java]  view plain  copy
  1. import org.apache.spark.ml.feature.Normalizer;  
  2. import org.apache.spark.sql.Dataset;  
  3. import org.apache.spark.sql.Row;  
  4.   
  5. Dataset<Row> dataFrame =  
  6.   spark.read().format("libsvm").load("data/mllib/sample_libsvm_data.txt");  
  7.   
  8. // Normalize each Vector using $L^1$ norm.  
  9. Normalizer normalizer = new Normalizer()  
  10.   .setInputCol("features")  
  11.   .setOutputCol("normFeatures")  
  12.   .setP(1.0);  
  13.   
  14. Dataset<Row> l1NormData = normalizer.transform(dataFrame);  
  15. l1NormData.show();  
  16.   
  17. // Normalize each Vector using $L^\infty$ norm.  
  18. Dataset<Row> lInfNormData =  
  19.   normalizer.transform(dataFrame, normalizer.p().w(Double.POSITIVE_INFINITY));  
  20. lInfNormData.show();  

Python:

[python]  view plain  copy
  1. from pyspark.ml.feature import Normalizer  
  2.   
  3. dataFrame = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")  
  4.   
  5. # Normalize each Vector using $L^1$ norm.  
  6. normalizer = Normalizer(inputCol="features", outputCol="normFeatures", p=1.0)  
  7. l1NormData = normalizer.transform(dataFrame)  
  8. l1NormData.show()  
  9.   
  10. # Normalize each Vector using $L^\infty$ norm.  
  11. lInfNormData = normalizer.transform(dataFrame, {normalizer.p: float("inf")})  
  12. lInfNormData.show()  

StandardScaler

算法介绍:

       StandardScaler处理Vector数据,标准化每个特征使得其有统一的标准差以及(或者)均值为零。它需要如下参数:

1. withStd:默认值为真,使用统一标准差方式。

2. withMean:默认为假。此种方法将产出一个稠密输出,所以不适用于稀疏输入。

        StandardScaler是一个Estimator,它可以fit数据集产生一个StandardScalerModel,用来计算汇总统计。然后产生的模可以用来转换向量至统一的标准差以及(或者)零均值特征。注意如果特征的标准差为零,则该特征在向量中返回的默认值为0.0

       下面的示例展示如果读入一个libsvm形式的数据以及返回有统一标准差的标准化特征。

调用示例:

Scala:

[plain]  view plain  copy
  1. import org.apache.spark.ml.feature.StandardScaler  
  2.   
  3. val dataFrame = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")  
  4.   
  5. val scaler = new StandardScaler()  
  6.   .setInputCol("features")  
  7.   .setOutputCol("scaledFeatures")  
  8.   .setWithStd(true)  
  9.   .setWithMean(false)  
  10.   
  11. // Compute summary statistics by fitting the StandardScaler.  
  12. val scalerModel = scaler.fit(dataFrame)  
  13.   
  14. // Normalize each feature to have unit standard deviation.  
  15. val scaledData = scalerModel.transform(dataFrame)  
  16. scaledData.show()  

Java:

[java]  view plain  copy
  1. import org.apache.spark.ml.feature.StandardScaler;  
  2. import org.apache.spark.ml.feature.StandardScalerModel;  
  3. import org.apache.spark.sql.Dataset;  
  4. import org.apache.spark.sql.Row;  
  5.   
  6. Dataset<Row> dataFrame =  
  7.   spark.read().format("libsvm").load("data/mllib/sample_libsvm_data.txt");  
  8.   
  9. StandardScaler scaler = new StandardScaler()  
  10.   .setInputCol("features")  
  11.   .setOutputCol("scaledFeatures")  
  12.   .setWithStd(true)  
  13.   .setWithMean(false);  
  14.   
  15. // Compute summary statistics by fitting the StandardScaler  
  16. StandardScalerModel scalerModel = scaler.fit(dataFrame);  
  17.   
  18. // Normalize each feature to have unit standard deviation.  
  19. Dataset<Row> scaledData = scalerModel.transform(dataFrame);  
  20. scaledData.show();  

Python:

[python]  view plain  copy
  1. from pyspark.ml.feature import StandardScaler  
  2.   
  3. dataFrame = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")  
  4. scaler = StandardScaler(inputCol="features", outputCol="scaledFeatures",  
  5.                         withStd=True, withMean=False)  
  6.   
  7. # Compute summary statistics by fitting the StandardScaler  
  8. scalerModel = scaler.fit(dataFrame)  
  9.   
  10. # Normalize each feature to have unit standard deviation.  
  11. scaledData = scalerModel.transform(dataFrame)  
  12. scaledData.show()  

MinMaxScaler

算法介绍:

       MinMaxScaler通过重新调节大小将Vector形式的列转换到指定的范围内,通常为[0,1],它的参数有:

1. min:默认为0.0,为转换后所有特征的下边界。

2. max:默认为1.0,为转换后所有特征的下边界。

       MinMaxScaler计算数据集的汇总统计量,并产生一个MinMaxScalerModel。该模型可以将独立的特征的值转换到指定的范围内。

       对于特征E来说,调整后的特征值如下:

 

       如果 ,则 。

       注意因为零值转换后可能变为非零值,所以即便为稀疏输入,输出也可能为稠密向量。

       下面的示例展示如果读入一个libsvm形式的数据以及调整其特征值到[0,1]之间。

调用示例:

Scala:

[plain]  view plain  copy
  1. import org.apache.spark.ml.feature.MinMaxScaler  
  2.   
  3. val dataFrame = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")  
  4.   
  5. val scaler = new MinMaxScaler()  
  6.   .setInputCol("features")  
  7.   .setOutputCol("scaledFeatures")  
  8.   
  9. // Compute summary statistics and generate MinMaxScalerModel  
  10. val scalerModel = scaler.fit(dataFrame)  
  11.   
  12. // rescale each feature to range [min, max].  
  13. val scaledData = scalerModel.transform(dataFrame)  
  14. scaledData.show()  

Java:

[java]  view plain  copy
  1. import org.apache.spark.ml.feature.MinMaxScaler;  
  2. import org.apache.spark.ml.feature.MinMaxScalerModel;  
  3. import org.apache.spark.sql.Dataset;  
  4. import org.apache.spark.sql.Row;  
  5.   
  6. Dataset<Row> dataFrame = spark  
  7.   .read()  
  8.   .format("libsvm")  
  9.   .load("data/mllib/sample_libsvm_data.txt");  
  10. MinMaxScaler scaler = new MinMaxScaler()  
  11.   .setInputCol("features")  
  12.   .setOutputCol("scaledFeatures");  
  13.   
  14. // Compute summary statistics and generate MinMaxScalerModel  
  15. MinMaxScalerModel scalerModel = scaler.fit(dataFrame);  
  16.   
  17. // rescale each feature to range [min, max].  
  18. Dataset<Row> scaledData = scalerModel.transform(dataFrame);  
  19. scaledData.show();  

Python:

[python]  view plain  copy
  1. from pyspark.ml.feature import MinMaxScaler  
  2.   
  3. dataFrame = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")  
  4.   
  5. scaler = MinMaxScaler(inputCol="features", outputCol="scaledFeatures")  
  6.   
  7. # Compute summary statistics and generate MinMaxScalerModel  
  8. scalerModel = scaler.fit(dataFrame)  
  9.   
  10. # rescale each feature to range [min, max].  
  11. scaledData = scalerModel.transform(dataFrame)  
  12. scaledData.show()  

MaxAbsScaler

算法介绍:

       MaxAbsScaler使用每个特征的最大值的绝对值将输入向量的特征值转换到[-1,1]之间。因为它不会转移/集中数据,所以不会破坏数据的稀疏性。

      下面的示例展示如果读入一个libsvm形式的数据以及调整其特征值到[-1,1]之间。

调用示例:

Scala:

[plain]  view plain  copy
  1. import org.apache.spark.ml.feature.MaxAbsScaler  
  2.   
  3. val dataFrame = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")  
  4. val scaler = new MaxAbsScaler()  
  5.   .setInputCol("features")  
  6.   .setOutputCol("scaledFeatures")  
  7.   
  8. // Compute summary statistics and generate MaxAbsScalerModel  
  9. val scalerModel = scaler.fit(dataFrame)  
  10.   
  11. // rescale each feature to range [-1, 1]  
  12. val scaledData = scalerModel.transform(dataFrame)  
  13. scaledData.show()  

Java:

[java]  view plain  copy
  1. import org.apache.spark.ml.feature.MaxAbsScaler;  
  2. import org.apache.spark.ml.feature.MaxAbsScalerModel;  
  3. import org.apache.spark.sql.Dataset;  
  4. import org.apache.spark.sql.Row;  
  5.   
  6. Dataset<Row> dataFrame = spark  
  7.   .read()  
  8.   .format("libsvm")  
  9.   .load("data/mllib/sample_libsvm_data.txt");  
  10. MaxAbsScaler scaler = new MaxAbsScaler()  
  11.   .setInputCol("features")  
  12.   .setOutputCol("scaledFeatures");  
  13.   
  14. // Compute summary statistics and generate MaxAbsScalerModel  
  15. MaxAbsScalerModel scalerModel = scaler.fit(dataFrame);  
  16.   
  17. // rescale each feature to range [-1, 1].  
  18. Dataset<Row> scaledData = scalerModel.transform(dataFrame);  
  19. scaledData.show();  

Python:

[python]  view plain  copy
  1. from pyspark.ml.feature import MaxAbsScaler  
  2.   
  3. dataFrame = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")  
  4.   
  5. scaler = MaxAbsScaler(inputCol="features", outputCol="scaledFeatures")  
  6.   
  7. # Compute summary statistics and generate MaxAbsScalerModel  
  8. scalerModel = scaler.fit(dataFrame)  
  9.   
  10. # rescale each feature to range [-1, 1].  
  11. scaledData = scalerModel.transform(dataFrame)  
  12. scaledData.show()  

Bucketizer

算法介绍:

       Bucketizer将一列连续的特征转换为特征区间,区间由用户指定。参数如下:

1. splits:分裂数为n+1时,将产生n个区间。除了最后一个区间外,每个区间范围[x,y]由分裂的xy决定。分裂必须是严格递增的。在分裂指定外的值将被归为错误。两个分裂的例子为Array(Double.NegativeInfinity,0.0, 1.0, Double.PositiveInfinity)以及Array(0.0, 1.0, 2.0)

       注意,当不确定分裂的上下边界时,应当添加Double.NegativeInfinityDouble.PositiveInfinity以免越界。

      下面将展示Bucketizer的使用方法。

调用示例:

Scala:

[plain]  view plain  copy
  1. import org.apache.spark.ml.feature.Bucketizer  
  2.   
  3. val splits = Array(Double.NegativeInfinity, -0.5, 0.0, 0.5, Double.PositiveInfinity)  
  4.   
  5. val data = Array(-0.5, -0.3, 0.0, 0.2)  
  6. val dataFrame = spark.createDataFrame(data.map(Tuple1.apply)).toDF("features")  
  7.   
  8. val bucketizer = new Bucketizer()  
  9.   .setInputCol("features")  
  10.   .setOutputCol("bucketedFeatures")  
  11.   .setSplits(splits)  
  12.   
  13. // Transform original data into its bucket index.  
  14. val bucketedData = bucketizer.transform(dataFrame)  
  15. bucketedData.show()  

Java:

[java]  view plain  copy
  1. import java.util.List;  
  2.   
  3. import org.apache.spark.ml.feature.Bucketizer;  
  4. import org.apache.spark.sql.Dataset;  
  5. import org.apache.spark.sql.Row;  
  6. import org.apache.spark.sql.RowFactory;  
  7. import org.apache.spark.sql.types.DataTypes;  
  8. import org.apache.spark.sql.types.Metadata;  
  9. import org.apache.spark.sql.types.StructField;  
  10. import org.apache.spark.sql.types.StructType;  
  11.   
  12. double[] splits = {Double.NEGATIVE_INFINITY, -0.50.00.5, Double.POSITIVE_INFINITY};  
  13.   
  14. List<Row> data = Arrays.asList(  
  15.   RowFactory.create(-0.5),  
  16.   RowFactory.create(-0.3),  
  17.   RowFactory.create(0.0),  
  18.   RowFactory.create(0.2)  
  19. );  
  20. StructType schema = new StructType(new StructField[]{  
  21.   new StructField("features", DataTypes.DoubleType, false, Metadata.empty())  
  22. });  
  23. Dataset<Row> dataFrame = spark.createDataFrame(data, schema);  
  24.   
  25. Bucketizer bucketizer = new Bucketizer()  
  26.   .setInputCol("features")  
  27.   .setOutputCol("bucketedFeatures")  
  28.   .setSplits(splits);  
  29.   
  30. // Transform original data into its bucket index.  
  31. Dataset<Row> bucketedData = bucketizer.transform(dataFrame);  
  32. bucketedData.show();  

Python:

[python]  view plain  copy
  1. from pyspark.ml.feature import Bucketizer  
  2.   
  3. splits = [-float("inf"), -0.50.00.5, float("inf")]  
  4.   
  5. data = [(-0.5,), (-0.3,), (0.0,), (0.2,)]  
  6. dataFrame = spark.createDataFrame(data, ["features"])  
  7.   
  8. bucketizer = Bucketizer(splits=splits, inputCol="features", outputCol="bucketedFeatures")  
  9.   
  10. # Transform original data into its bucket index.  
  11. bucketedData = bucketizer.transform(dataFrame)  
  12. bucketedData.show()  

ElementwiseProduct

算法介绍:

        ElementwiseProduct按提供的“weight”向量,返回与输入向量元素级别的乘积。即是说,按提供的权重分别对输入数据进行缩放,得到输入向量v以及权重向量wHadamard积。

 

       下面例子展示如何通过转换向量的值来调整向量。

调用示例:

Scala:

[plain]  view plain  copy
  1. import org.apache.spark.ml.feature.ElementwiseProduct  
  2. import org.apache.spark.ml.linalg.Vectors  
  3.   
  4. // Create some vector data; also works for sparse vectors  
  5. val dataFrame = spark.createDataFrame(Seq(  
  6.   ("a", Vectors.dense(1.0, 2.0, 3.0)),  
  7.   ("b", Vectors.dense(4.0, 5.0, 6.0)))).toDF("id", "vector")  
  8.   
  9. val transformingVector = Vectors.dense(0.0, 1.0, 2.0)  
  10. val transformer = new ElementwiseProduct()  
  11.   .setScalingVec(transformingVector)  
  12.   .setInputCol("vector")  
  13.   .setOutputCol("transformedVector")  
  14.   
  15. // Batch transform the vectors to create new column:  
  16. transformer.transform(dataFrame).show()  

Java:

[java]  view plain  copy
  1. import java.util.ArrayList;  
  2. import java.util.Arrays;  
  3. import java.util.List;  
  4.   
  5. import org.apache.spark.ml.feature.ElementwiseProduct;  
  6. import org.apache.spark.ml.linalg.Vector;  
  7. import org.apache.spark.ml.linalg.VectorUDT;  
  8. import org.apache.spark.ml.linalg.Vectors;  
  9. import org.apache.spark.sql.Row;  
  10. import org.apache.spark.sql.RowFactory;  
  11. import org.apache.spark.sql.types.DataTypes;  
  12. import org.apache.spark.sql.types.StructField;  
  13. import org.apache.spark.sql.types.StructType;  
  14.   
  15. // Create some vector data; also works for sparse vectors  
  16. List<Row> data = Arrays.asList(  
  17.   RowFactory.create("a", Vectors.dense(1.02.03.0)),  
  18.   RowFactory.create("b", Vectors.dense(4.05.06.0))  
  19. );  
  20.   
  21. List<StructField> fields = new ArrayList<>(2);  
  22. fields.add(DataTypes.createStructField("id", DataTypes.StringType, false));  
  23. fields.add(DataTypes.createStructField("vector"new VectorUDT(), false));  
  24.   
  25. StructType schema = DataTypes.createStructType(fields);  
  26.   
  27. Dataset<Row> dataFrame = spark.createDataFrame(data, schema);  
  28.   
  29. Vector transformingVector = Vectors.dense(0.01.02.0);  
  30.   
  31. ElementwiseProduct transformer = new ElementwiseProduct()  
  32.   .setScalingVec(transformingVector)  
  33.   .setInputCol("vector")  
  34.   .setOutputCol("transformedVector");  
  35.   
  36. // Batch transform the vectors to create new column:  
  37. transformer.transform(dataFrame).show();  

Python:

[python]  view plain  copy
  1. from pyspark.ml.feature import ElementwiseProduct  
  2. from pyspark.ml.linalg import Vectors  
  3.   
  4. # Create some vector data; also works for sparse vectors  
  5. data = [(Vectors.dense([1.02.03.0]),), (Vectors.dense([4.05.06.0]),)]  
  6. df = spark.createDataFrame(data, ["vector"])  
  7. transformer = ElementwiseProduct(scalingVec=Vectors.dense([0.01.02.0]),  
  8.                                  inputCol="vector", outputCol="transformedVector")  
  9. # Batch transform the vectors to create new column:  
  10. transformer.transform(df).show()  

SQLTransformer

算法介绍:

       SQLTransformer工具用来转换由SQL定义的陈述。目前仅支持SQL语法如"SELECT ...FROM __THIS__ ...",其中"__THIS__"代表输入数据的基础表。选择语句指定输出中展示的字段、元素和表达式,支持Spark SQL中的所有选择语句。用户可以基于选择结果使用Spark SQL建立方程或者用户自定义函数。SQLTransformer支持语法示例如下:

1. SELECTa, a + b AS a_b FROM __THIS__

2. SELECTa, SQRT(b) AS b_sqrt FROM __THIS__ where a > 5

3. SELECTa, b, SUM(c) AS c_sum FROM __THIS__ GROUP BY a, b

示例:

假设我们有如下DataFrame包含idv1v2列:
id |  v1 |  v2

----|-----|-----

0  | 1.0 | 3.0 

2  | 2.0 | 5.0

使用SQLTransformer语句"SELECT *,(v1 + v2) AS v3, (v1 * v2) AS v4 FROM __THIS__"转换后得到输出如下:

id |  v1 | v2 |  v3 |  v4

----|-----|-----|-----|-----

 0  | 1.0| 3.0 | 4.0 | 3.0

 2  | 2.0| 5.0 | 7.0 |10.0

调用示例:

Scala:

[plain]  view plain  copy
  1. import org.apache.spark.ml.feature.SQLTransformer  
  2.   
  3. val df = spark.createDataFrame(  
  4.   Seq((0, 1.0, 3.0), (2, 2.0, 5.0))).toDF("id", "v1", "v2")  
  5.   
  6. val sqlTrans = new SQLTransformer().setStatement(  
  7.   "SELECT *, (v1 + v2) AS v3, (v1 * v2) AS v4 FROM __THIS__")  
  8.   
  9. sqlTrans.transform(df).show()  

Java:

[java]  view plain  copy
  1. import java.util.Arrays;  
  2. import java.util.List;  
  3.   
  4. import org.apache.spark.ml.feature.SQLTransformer;  
  5. import org.apache.spark.sql.Dataset;  
  6. import org.apache.spark.sql.Row;  
  7. import org.apache.spark.sql.RowFactory;  
  8. import org.apache.spark.sql.SparkSession;  
  9. import org.apache.spark.sql.types.*;  
  10.   
  11. List<Row> data = Arrays.asList(  
  12.   RowFactory.create(01.03.0),  
  13.   RowFactory.create(22.05.0)  
  14. );  
  15. StructType schema = new StructType(new StructField [] {  
  16.   new StructField("id", DataTypes.IntegerType, false, Metadata.empty()),  
  17.   new StructField("v1", DataTypes.DoubleType, false, Metadata.empty()),  
  18.   new StructField("v2", DataTypes.DoubleType, false, Metadata.empty())  
  19. });  
  20. Dataset<Row> df = spark.createDataFrame(data, schema);  
  21.   
  22. SQLTransformer sqlTrans = new SQLTransformer().setStatement(  
  23.   "SELECT *, (v1 + v2) AS v3, (v1 * v2) AS v4 FROM __THIS__");  
  24.   
  25. sqlTrans.transform(df).show();  

Python:

[python]  view plain  copy
  1. from pyspark.ml.feature import SQLTransformer  
  2.   
  3. df = spark.createDataFrame([  
  4.     (01.03.0),  
  5.     (22.05.0)  
  6. ], ["id""v1""v2"])  
  7. sqlTrans = SQLTransformer(  
  8.     statement="SELECT *, (v1 + v2) AS v3, (v1 * v2) AS v4 FROM __THIS__")  
  9. sqlTrans.transform(df).show()  

VectorAssembler

算法介绍:

        VectorAssembler是一个转换器,它将给定的若干列合并为一列向量。它可以将原始特征和一系列通过其他转换器得到的特征合并为单一的特征向量,来训练如逻辑回归和决策树等机器学习算法。VectorAssembler可接受的输入列类型:数值型、布尔型、向量型。输入列的值将按指定顺序依次添加到一个新向量中。

示例:

       假设我们有如下DataFrame包含id,hour,mobileuserFeatures以及clicked列:

id | hour | mobile| userFeatures     | clicked

----|------|--------|------------------|---------

 0  |18   | 1.0    | [0.0, 10.0, 0.5] | 1.0

        userFeatures列中含有3个用户特征。我们想将hour,mobile以及userFeatures合并为一个新列。将VectorAssembler的输入指定为hour,mobile以及userFeatures,输出指定为features,通过转换我们将得到以下结果:

id | hour | mobile| userFeatures     | clicked | features

----|------|--------|------------------|---------|-----------------------------

 0  |18   | 1.0    | [0.0, 10.0, 0.5] | 1.0     | [18.0, 1.0, 0.0, 10.0, 0.5]

调用示例:

Scala:

[plain]  view plain  copy
  1. import org.apache.spark.ml.feature.VectorAssembler  
  2. import org.apache.spark.ml.linalg.Vectors  
  3.   
  4. val dataset = spark.createDataFrame(  
  5.   Seq((0, 18, 1.0, Vectors.dense(0.0, 10.0, 0.5), 1.0))  
  6. ).toDF("id", "hour", "mobile", "userFeatures", "clicked")  
  7.   
  8. val assembler = new VectorAssembler()  
  9.   .setInputCols(Array("hour", "mobile", "userFeatures"))  
  10.   .setOutputCol("features")  
  11.   
  12. val output = assembler.transform(dataset)  
  13. println(output.select("features", "clicked").first())  

Java:

[java]  view plain  copy
  1. import java.util.Arrays;  
  2.   
  3. import org.apache.spark.ml.feature.VectorAssembler;  
  4. import org.apache.spark.ml.linalg.VectorUDT;  
  5. import org.apache.spark.ml.linalg.Vectors;  
  6. import org.apache.spark.sql.Dataset;  
  7. import org.apache.spark.sql.Row;  
  8. import org.apache.spark.sql.RowFactory;  
  9. import org.apache.spark.sql.types.*;  
  10.   
  11. import static org.apache.spark.sql.types.DataTypes.*;  
  12.   
  13. StructType schema = createStructType(new StructField[]{  
  14.   createStructField("id", IntegerType, false),  
  15.   createStructField("hour", IntegerType, false),  
  16.   createStructField("mobile", DoubleType, false),  
  17.   createStructField("userFeatures"new VectorUDT(), false),  
  18.   createStructField("clicked", DoubleType, false)  
  19. });  
  20. Row row = RowFactory.create(0181.0, Vectors.dense(0.010.00.5), 1.0);  
  21. Dataset<Row> dataset = spark.createDataFrame(Arrays.asList(row), schema);  
  22.   
  23. VectorAssembler assembler = new VectorAssembler()  
  24.   .setInputCols(new String[]{"hour""mobile""userFeatures"})  
  25.   .setOutputCol("features");  
  26.   
  27. Dataset<Row> output = assembler.transform(dataset);  
  28. System.out.println(output.select("features""clicked").first());  

Python:

[python]  view plain  copy
  1. from pyspark.ml.linalg import Vectors  
  2. from pyspark.ml.feature import VectorAssembler  
  3.   
  4. dataset = spark.createDataFrame(  
  5.     [(0181.0, Vectors.dense([0.010.00.5]), 1.0)],  
  6.     ["id""hour""mobile""userFeatures""clicked"])  
  7. assembler = VectorAssembler(  
  8.     inputCols=["hour""mobile""userFeatures"],  
  9.     outputCol="features")  
  10. output = assembler.transform(dataset)  
  11. print(output.select("features""clicked").first())  

QuantileDiscretizer

算法介绍:

       QuantileDiscretizer讲连续型特征转换为分级类别特征。分级的数量由numBuckets参数决定。分级的范围有渐进算法决定。渐进的精度由relativeError参数决定。当relativeError设置为0时,将会计算精确的分位点(计算代价较高)。分级的上下边界为负无穷到正无穷,覆盖所有的实数值。

示例:
假设我们有如下DataFrame包含id,hour

id | hour

----|------

 0  |18.0

----|------

 1  |19.0

----|------

 2  | 8.0

----|------

 3  | 5.0

----|------

 4  | 2.2

hour是一个Double类型的连续特征,将参数numBuckets设置为3,我们可以将hour转换为如下分级特征。

id | hour | result

----|------|------

 0  |18.0 | 2.0

----|------|------

 1  |19.0 | 2.0

----|------|------

 2  |8.0  | 1.0

----|------|------

 3  |5.0  | 1.0

----|------|------

 4  |2.2  | 0.0

调用示例:

Scala:

[plain]  view plain  copy
  1. import org.apache.spark.ml.feature.QuantileDiscretizer  
  2.   
  3. val data = Array((0, 18.0), (1, 19.0), (2, 8.0), (3, 5.0), (4, 2.2))  
  4. var df = spark.createDataFrame(data).toDF("id", "hour")  
  5.   
  6. val discretizer = new QuantileDiscretizer()  
  7.   .setInputCol("hour")  
  8.   .setOutputCol("result")  
  9.   .setNumBuckets(3)  
  10.   
  11. val result = discretizer.fit(df).transform(df)  
  12. result.show()  

Java:

[java]  view plain  copy
  1. import java.util.Arrays;  
  2. import java.util.List;  
  3.   
  4. import org.apache.spark.ml.feature.QuantileDiscretizer;  
  5. import org.apache.spark.sql.Dataset;  
  6. import org.apache.spark.sql.Row;  
  7. import org.apache.spark.sql.RowFactory;  
  8. import org.apache.spark.sql.types.DataTypes;  
  9. import org.apache.spark.sql.types.Metadata;  
  10. import org.apache.spark.sql.types.StructField;  
  11. import org.apache.spark.sql.types.StructType;  
  12.   
  13. List<Row> data = Arrays.asList(  
  14.   RowFactory.create(018.0),  
  15.   RowFactory.create(119.0),  
  16.   RowFactory.create(28.0),  
  17.   RowFactory.create(35.0),  
  18.   RowFactory.create(42.2)  
  19. );  
  20.   
  21. StructType schema = new StructType(new StructField[]{  
  22.   new StructField("id", DataTypes.IntegerType, false, Metadata.empty()),  
  23.   new StructField("hour", DataTypes.DoubleType, false, Metadata.empty())  
  24. });  
  25.   
  26. Dataset<Row> df = spark.createDataFrame(data, schema);  
  27.   
  28. QuantileDiscretizer discretizer = new QuantileDiscretizer()  
  29.   .setInputCol("hour")  
  30.   .setOutputCol("result")  
  31.   .setNumBuckets(3);  
  32.   
  33. Dataset<Row> result = discretizer.fit(df).transform(df);  
  34. result.show();  

Python:

[python]  view plain  copy
  1. from pyspark.ml.feature import QuantileDiscretizer  
  2.   
  3. data = [(018.0,), (119.0,), (28.0,), (35.0,), (42.2,)]  
  4. df = spark.createDataFrame(data, ["id""hour"])  
  5.   
  6. discretizer = QuantileDiscretizer(numBuckets=3, inputCol="hour", outputCol="result")  
  7.   
  8. result = discretizer.fit(df).transform(df)  
  9. result.show()  

文章出处:https://blog.youkuaiyun.com/liulingyuan6/article/details/53410832

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值