Spark MLIB的Normalizer、StandardScaler、MinMaxScaler、RobustScaler这个特征处理方法有什么不同

目录

 

一、特征处理方法

二、啥是特征处理

三、Spark ML中常见算子释义

3.1 Normalizer

3.2 StandardScaler

3.3 MinMaxScaler

3.4 RobustScaler计算方法


一、特征处理方法

机器学习当中最重要的就是寻找数据的特征,给数据打标签。那么在SparkMLIB中提供了package org.apache.spark.ml.feature,包中封装了众多feature算子。今天剖析一下题目中的几个算子。

二、啥是特征处理

特征整体上就两类:一类是不可以用数字标识的特征:例如天气、喜好、心情、上下文等;另一类是可以用数值进行表述的特征,例如年龄、体温、价格等。那么特征处理又是个啥意思呢,通俗的说就有很多条数据,需要给这些数据对应的标识,当然如何标识的过程也是一个值得深入的问题。

下面可以画一个图来示意一下,啥是特征处理。

最后呢,根据特征列表梳理出来了小A的特征信息。

三、Spark ML中常见算子释义

3.1 Normalizer

Normalizer是SparkML中的正则函数。那么Normalizer描述的是向量在数域空间上的长度。

下面的式子,先计算出基本的向量范式。

\left \|x _{p} \right \|=\left ( {|x_{1}|}^{p}+{|x_{2}|}^{p}+... +{|x_{n}|}^{p}\right )^{\frac{1}{p}}

在此范式,求出向量的表达:

评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大锤爱编程

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值