Pandas数据预处理3--标准化数据

本文详细介绍了Pandas库中用于数据预处理的三种标准化方法:离差标准化、标准差标准化和小数定标标准化,这些方法在大数据处理中常常用于归一化数据,确保不同特征在同一尺度上。

1 离差标准化数据

import pandas as pd
import numpy as np
detail = pd.read_csv('../data/detail.csv',
    index_col=0,encoding = 'gbk')
## 自定义离差标准化函数
def MinMaxScale(data):
    data=(data-data.min())/(data.max()-data.min())
    return data
##对菜品订单表售价和销量做离差标准化
data1=MinMaxScale(detail['counts'])
data2=MinMaxScale(detail ['amounts'])
data3=pd.concat([data1,data2],axis=1)
print('离差标准化之前销量和售价数据为:\n',
    detail[['counts','amounts']].head())
print('离差标准化之后销量和售价数据为:\n',data3.head())

2 标准差标准化数据

##自定义标准差标准化函数
def StandardScaler(data):
    data=(data-data.mean())/data.std()
    return data
##对菜品订单表售价和销量做标准化
data4=StandardScaler(detail['counts'])
data5=StandardScaler(detail['amounts'])
data6=pd.concat([data4,data5],axis=1)
print('标准差标准化之前销量和售价数据为:\n',
    detail[['counts','amounts']].head())
print('标准差标准化之后销量和售价数据为:\n',data6.head())

3 小数定标标准化数据

##自定义小数定标差标准化函数
def DecimalScaler(data):
    data=data/10**np.ceil(np.lo
### 大数据数据挖掘中的数据预处理标准化 #### 数据清洗 在大数据环境中,由于数据源的多样性以及采集方式的不同,所获取的数据通常存在缺失值、异常值等问题。对于这些问题,可以通过删除含有大量缺失值的记录或属性来解决;也可以采用均值填充法、中位数填充法等方式填补缺失值[^1]。 #### 数据集成 当来自多个不同源头的数据被整合在一起时,可能会遇到命名冲突(例如同一实体有不同的名称)、重复记录等情况。此时应建立统一的标准编码体系以消除这些差异,并利用唯一键或其他机制识别并去除冗余项[^2]。 #### 数据转换 为了使不同类型的数据能够更好地适应特定算法的要求,常常需要对其进行规范化操作。这包括但不限于: - **离散化**:将连续型变量划分为若干区间段; - **平滑处理**:减少噪音影响,比如使用移动平均滤波器; - **聚合计算**:按一定规则汇总统计信息,如求和、计数等; - **编码映射**:把类别标签转化为数值形式以便于计算机理解加工[^4]。 ```python import pandas as pd from sklearn.preprocessing import StandardScaler, OneHotEncoder # 假设有一个DataFrame对象df包含了待处理的数据表单 scaler = StandardScaler() df[['numeric_feature']] = scaler.fit_transform(df[['numeric_feature']]) encoder = OneHotEncoder(sparse=False) encoded_features = encoder.fit_transform(df[['categorical_feature']]) df_encoded = pd.DataFrame(encoded_features, columns=encoder.get_feature_names_out(['categorical_feature'])) df_final = pd.concat([df.drop('categorical_feature', axis=1), df_encoded], axis=1) ``` 上述代码展示了如何运用Python库`pandas`配合机器学习工具包`sklearn`实现对数值特征进行标准缩放以及对分类特征执行独热编码的过程。 #### 数据规约 面对海量级的大规模数据集合,直接在其基础上开展深入研究往往是低效甚至不可能完成的任务。因此有必要采取措施降低其复杂度而不显著损害有用的信息含量。具体做法涉及以下几个方面: - **维度过滤/降维**:仅保留那些最能代表整体特性的少数几个维度; - **实例选择**:挑选最具代表性的小样本子集代替整个群体参与建模训练过程; - **参数简化**:压缩某些高度联但又相互独立存在的指标至单一衡量尺度之上[^3]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值