目录
一、特征处理方法
机器学习当中最重要的就是寻找数据的特征,给数据打标签。那么在SparkMLIB中提供了package org.apache.spark.ml.feature,包中封装了众多feature算子。今天剖析一下题目中的几个算子。
二、啥是特征处理
特征整体上就两类:一类是不可以用数字标识的特征:例如天气、喜好、心情、上下文等;另一类是可以用数值进行表述的特征,例如年龄、体温、价格等。那么特征处理又是个啥意思呢,通俗的说就有很多条数据,需要给这些数据对应的标识,当然如何标识的过程也是一个值得深入的问题。
下面可以画一个图来示意一下,啥是特征处理。

最后呢,根据特征列表梳理出来了小A的特征信息。
三、Spark ML中常见算子释义
3.1 Normalizer
Normalizer是SparkML中的正则函数。那么Normalizer描述的是向量在数域空间上的长度。
下面的式子,先计算出基本的向量范式。
在此范式,求出向量的表达:

最低0.47元/天 解锁文章
1万+





