python数据变换

本文介绍了Python中数据预处理的两个关键步骤:规范化和连续属性的离散化。规范化包括最小-最大规范化、零-均值规范化和小数定标规范化,使数据落入特定区间。离散化则涉及等宽法、等频法和基于聚类的方法,通过创建区间并用符号或数值表示,以便于数据分析。属性构造也是数据预处理的重要环节。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.规范化

将数据进行标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。
1.最小-最大规范化
线性变换,将数值映射到【0,1】之间。
2.零-均值规范化
均值为0,标准差为1,标准正太分布,目前用到最多的方法
3.小数定标规范化
映射到【-1,1】之间

#-*- coding: utf-8 -*-
#数据规范化
import pandas as pd
import numpy as np

datafile = 'E:/PythonMaterial/chapter4/demo/data/normalization_data.xls' #参数初始化
data = pd.read_excel(datafile, header = None) #读取数据
print data

data1=(data - data.min())/(data.max() - data.min()) #最小-最大规范化
print data1

data2=(data - data.mean())/data.std() #零-均值规范化
print data2

data3=data/10**np.ceil(np.log10(data.abs().max())) #小数定标规范化
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值