特征工程(2)-数据预处理区间缩放法

本文介绍了区间缩放法的基本原理及应用,展示了如何利用最大最小值进行数据处理,并提供了使用Python sklearn库和Spark mllib库实现的具体代码示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

https://www.deeplearn.me/1383.html

 

区间缩放法原理

最常见的就是使用最大最下值来进行处理,处理的公式如下

y=xminmaxminy=x−minmax−min

上述公式中 min 代表数据最小值,max 代表数据最大值

  1. from sklearn.preprocessing import MinMaxScaler
  2. tmp=MinMaxScaler().fit_transform(irisdata.data)
  3. print tmp[0:5]

部分结果如下:
[[ 0.22222222 0.625 0.06779661 0.04166667]
[ 0.16666667 0.41666667 0.06779661 0.04166667]
[ 0.11111111 0.5 0.05084746 0.04166667]
[ 0.08333333 0.45833333 0.08474576 0.04166667]
[ 0.19444444 0.66666667 0.06779661 0.04166667]]
spark 中的区间缩放法

    1. >>>from pyspark.mllib.linalg import Vectors
    2. >>>from pyspark.sql import SQLContext
    3. >>>sqlContext=SQLContext(sc)
    4. >>>df = sqlContext.createDataFrame([(Vectors.dense([0.0]),), (Vectors.dense([2.0]),)], ["a"])
    5. >>> mmScaler = MinMaxScaler(inputCol="a", outputCol="scaled")
    6. >>> model = mmScaler.fit(df)
    7. >>> model.transform(df).show()
    8. +-----+------+
    9. | a|scaled|
    10. +-----+------+
    11. |[0.0]| [0.0]|
    12. |[2.0]| [1.0]|

转载于:https://www.cnblogs.com/yuluoxingkong/p/9010308.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值