特征工程（2）-数据预处理区间缩放法

最新推荐文章于 2021-09-13 09:24:58 发布

转载最新推荐文章于 2021-09-13 09:24:58 发布 · 684 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/yuluoxingkong/p/9010308.html

文章标签：

#python #人工智能

本文介绍了区间缩放法的基本原理及应用，展示了如何利用最大最小值进行数据处理，并提供了使用Python sklearn库和Spark mllib库实现的具体代码示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

https://www.deeplearn.me/1383.html

区间缩放法原理

最常见的就是使用最大最下值来进行处理，处理的公式如下

$y=x-minmax-miny=x-minmax-min$

上述公式中 min 代表数据最小值，max 代表数据最大值

from sklearn.preprocessing import MinMaxScaler
tmp=MinMaxScaler().fit_transform(irisdata.data)
print tmp[0:5]

部分结果如下：
[[ 0.22222222 0.625 0.06779661 0.04166667]
[ 0.16666667 0.41666667 0.06779661 0.04166667]
[ 0.11111111 0.5 0.05084746 0.04166667]
[ 0.08333333 0.45833333 0.08474576 0.04166667]
[ 0.19444444 0.66666667 0.06779661 0.04166667]]
spark 中的区间缩放法

1. >>>from pyspark.mllib.linalg import Vectors
2. >>>from pyspark.sql import SQLContext
3. >>>sqlContext=SQLContext(sc)
4. >>>df = sqlContext.createDataFrame([(Vectors.dense([0.0]),), (Vectors.dense([2.0]),)], ["a"])
5. >>> mmScaler = MinMaxScaler(inputCol="a", outputCol="scaled")
6. >>> model = mmScaler.fit(df)
7. >>> model.transform(df).show()
8. +-----+------+
9. | a|scaled|
10. +-----+------+
11. |[0.0]| [0.0]|
12. |[2.0]| [1.0]|