pyspark.ml.feature.VectorAssembler
vector:向量
assemble:召集,收集,装配
官方解释:ectorAssembler(inputCols=None, outputCol=None, handleInvalid=‘error’)
特征转换器,将多个列合并为一个向量列。
VectorAssembler接受以下输入列类型:所有数值类型、布尔类型和向量类型。在每一行中,输入列的值将按照指定的顺序连接到一个向量中。
理解:将dataset中一行的inputCols中的特征值组成一个向量插入outputCol所给的列名中
dataset = spark.createDataFrame(
[(0, 18, 1.0, Vectors.sparse(4,[1,3],[122,344]), 1.0,False,True)],
["id", "hour", "mobile", "userFeatures", "clicked",'flag','flag1'])
assembler = VectorAssembler(
inputCols=["hour", "mobile", "userFeatures",'flag','flag1'],
outputCol="features")
assembler.transform(dataset).show(truncate=False)

pyspark.ml.feature.MinMaxScaler
scaler:定标器
官方解释:
标准化函数,inputCol的形式为

本文介绍了PySpark ML库中的一些关键组件,包括VectorAssembler用于将多列数据合并为向量,MinMaxScaler进行特征标准化,RandomForestRegressor的参数和工作原理,以及Pipeline如何组织多个步骤。同时提到了参数调优的方法,如CrossValidator和TrainValidationSplit。
最低0.47元/天 解锁文章
162

被折叠的 条评论
为什么被折叠?



