Pandas数据预处理3--标准化数据

最新推荐文章于 2025-06-26 14:01:58 发布

原创

最新推荐文章于 2025-06-26 14:01:58 发布 · 652 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #大数据

本文详细介绍了Pandas库中用于数据预处理的三种标准化方法：离差标准化、标准差标准化和小数定标标准化，这些方法在大数据处理中常常用于归一化数据，确保不同特征在同一尺度上。

1 离差标准化数据

import pandas as pd
import numpy as np
detail = pd.read_csv('../data/detail.csv',
    index_col=0,encoding = 'gbk')
## 自定义离差标准化函数
def MinMaxScale(data):
    data=(data-data.min())/(data.max()-data.min())
    return data
##对菜品订单表售价和销量做离差标准化
data1=MinMaxScale(detail['counts'])
data2=MinMaxScale(detail ['amounts'])
data3=pd.concat([data1,data2],axis=1)
print('离差标准化之前销量和售价数据为：\n',
    detail[['counts','amounts']].head())
print('离差标准化之后销量和售价数据为：\n',data3.head())

2 标准差标准化数据

##自定义标准差标准化函数
def StandardScaler(data):
    data=(data-data.mean())/data.std()
    return data
##对菜品订单表售价和销量做标准化
data4=StandardScaler(detail['counts'])
data5=StandardScaler(detail['amounts'])
data6=pd.concat([data4,data5],axis=1)
print('标准差标准化之前销量和售价数据为：\n',
    detail[['counts','amounts']].head())
print('标准差标准化之后销量和售价数据为：\n',data6.head())

3 小数定标标准化数据

##自定义小数定标差标准化函数
def DecimalScaler(data):
    data=data/10**np.ceil(np.lo

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

留校察看的阿车

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python数据处理：使用Pandas进行数据标准化

2301_79365003的博客

09-09

1144

数据标准化是数据预处理中常用的一项任务，它将数据转换为具有相同范围和均值的标准分布。假设我们有一个名为"data"的DataFrame，其中包含了需要进行标准化的数值型特征列。通过标准化，我们可以将具有不同范围和均值的特征转换为具有相同尺度的标准正态分布，从而提高数据分析和建模的准确性和可靠性。就是经过标准化后的DataFrame对象，其中的每个特征列都具有相同的均值和标准差。接下来，我们将标准化后的数据重新转换为DataFrame对象，并命名新的特征列。接下来，我们可以使用Pandas的。

100天精通Python（数据分析篇）——第75天：Pandas数据预处理之数据标准化

热门推荐

努力让自己发光，对的人才能迎着光而来

02-13

2万+

专栏导读 1. 数据标准化是什么？ 2. 数据标准化的作用 3. 数据标准化的方法 4. 离差标准化 5. 标准差标准化 6. 小数定标标准化

参与评论您还未登录，请先登录后发表或查看评论

使用Pandas进行数据预处理 笔记3 任务 5.3 标准化数据

微信公众号（年更选手）：数据闲逛人 | Github开源项目：数分/数挖study路线 https://github.com/jc-dian/python_data_analysis

12-17

868

文章目录5.3 标准化数据5.3.1 离差标准化数据5.3.2 标准差标准化数据代码 5-27 标准差标准化示例5.3.3 小数定标标准化数据代码 5-28 小数定标标准化示例5.3.4 任务实现代码 5-29 对订单详情表中的数值型数据做标准化 5.3 标准化数据 %%html <img src = './image/5-3-2.png',width=700,height=400> <img src = ‘./image/5-3-2.png’,width=700,height=400&

pandas 对每一列数据进行标准化的方法

09-20

今天小编就为大家分享一篇pandas 对每一列数据进行标准化的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

第六篇：数据预处理(三) - 数据标准化

weixin_33704591的博客

05-20

298

前言在进行缺失，异常处理之后，往往要对数据进行变换。变换有多种情况，主要是以下两种： - 规范化：对数据进行一定比例的缩放，让它实质落入某个具体区间。 - 离散化：将连续型数据转化为离散化。规范化数据规范化非常容易实现，调用scale函数即可：它的具体变换步骤是特征值减去所有...

Pandas进行数据预处理（标准化数据）③

宝哥的学习之路

04-15

1513

Pandas进行数据预处理（标准化数据）

pandas数据预处理---缺失值处理、重复数据处理、更改索引、行列删除

FGH333xwy的博客

11-29

3627

常见的不规整数据主要有缺失数据、重复数据、异常数据几种，在开始正式的数据分析之前，我们需要先把这些不太规整的数据处理掉。本篇博文针对不同类型的数据，调用不同pandas内置函数进行处理，infor查看缺失值、isnull与notnull来判断缺失值、dropna删除缺失值、fillna填充缺失值、replace替换缺失值、interpolate插入、drop_duplicates方法去重、set_index、reindex、rename、reset_index重建索引，del 和 drop进行行列删除

Pandas数据预处理之数据标准化（参数解析与实战）

程序员Gloria的博客

04-27

1015

在进行机器学习任务时，数据预处理是至关重要的一环。其中，数据标准化是一项关键技术，它可以确保不同特征的值处于相似的尺度，从而提高机器学习模型的性能。在本文中，我们将深入探讨使用Pandas进行数据标准化的方法，并提供详细的代码实例和解析。

pandas--数据预处理

weixin_46361294的博客

07-11

3945

在内连接的情况下，仅仅返回索引重叠部分；在外连接的情况下，则显示索引的并集部分数据，不足的地方使用空值填补。纵向堆叠将两个数据表在y轴向上拼接。 concat函数：axis=0 append方法：两张表的列名需要完全一致！！！语法：参数名称说明 other 接收DataFrame或Series。表示要添加的新数据。无默认 ignore_index 接收boolean。如果输入True，就会对新生成的DataFrame使用新的索引（自动产生），默认为False ver

Pandas数据预处理之数据标准化-提升机器学习模型性能的关键步骤

一键难忘的博客

02-06

4536

Pandas数据处理学习笔记|数据标准化

weixin_46706405的博客

03-02

217

代码实现输出结果

【Python】数据分析.pandas数据预处理.标准化数据

懂得一千零一种,赋予你失败的方法！

08-10

8128

Python----数据分析-pandas数据预处理.标准化数据不同特征之间往往具有不同的量纲，由此所造成的数值间的差异可能很大，在涉及空间距离计算或梯度下降法等情况的时候不对其进行处理会影响到数据分析结果的准确性。为了消除特征之间的量纲和取值范围差异可能会造成的影响，需对数据进行标准化处理，也可以称为规范化处理。目录：一、离差标准化数据二、标准差标准化数据三、小数定标标准化数据一、离差标准化数据离差标准化是对原始数据的一种线性变换，结果是将原始数据的数值映射到[0，1]区间上。 X∗

Pandas数据标准化处理

weixin_74777503的博客

08-29

1938

在数据分析和机器学习领域，数据标准化是一个关键步骤。标准化处理能够帮助不同尺度的数据在同一范围内进行比较，并提高某些机器学习算法的性能和稳定性。常用的标准化方法有 Min-Max标准化、Z-score标准化、归一化（Sum Normalization）等。各方法在处理数据时有不同的效果和适用场景。Min-Max 标准化和区间化：适用于数据的归一化处理，保留原始数据的分布信息，但受异常值影响较大。Z-score 标准化：适用于数据服从正态分布的情况，将数据转换为均值为 0，标准差为 1 的正态分布。

使用 Pandas 进行数据标准化：全面指南

最新发布

ziyuanix的博客

06-26

1173

数据标准化是数据预处理的重要步骤，它能够消除不同特征之间量纲的影响，提高模型的性能和稳定性。本文介绍了四种常见的标准化方法：Min-Max 标准化、Z-Score 标准化、Robust 标准化和单位长度标准化，并展示了如何使用 pandas 和 sklearn 库实现这些方法。在实际应用中，你可以根据数据的特点和模型的需求选择合适的标准化方法。同时，要注意处理数据中的异常值和缺失值，以及正确地对训练集和测试集进行标准化。希望本文能够帮助你更好地理解和应用数据标准化技术！

使用pandas模块实现数据的标准化

也许会有_hui的博客

06-21

7633

目录 1.3σ原则 2.离差标准化 3.标准差标准化 4.小数定标标准化 3σ 原则 (u-3*σ ,u+3*σ ) 离差标准化 (x-min)/(max-min) 标准差标准化 (x-u)/σ 小数定标标准化 x/10**k k=np.ceil(log10(max(|x|))) 1.3σ原则 u 均值 σ 标准差 ...

pandas数据预处理_合并_清洗_标准化数据_转换数据

酱汁儿

07-31

3698

目录 1. 堆叠合并数据 1.1 横向表堆叠（axis=1,concat做行对齐） 1.2 纵向堆叠（axis=0,concat做列对齐） 1.3 主键合并数据 2.清洗数据 2.1 检测与处理重复值 3 、标准化数据 3.1离差标准化公式： 3.2标准差标准化数据： 3.3小数定标标准化公式及对比： 4.转换数据 4.1 哑变量处理类别数据 5.任务 6.相关代码参考...

python学习——pandas数据处理 & 时间序列案例 & matplotlib绘图案例

Arya的博客，专注后端领域

06-22

2151

pandas数据处理 & 时间序列案例 & matplotlib绘图案例

图解数据分析(14) | Pandas - 数据变换高级函数（数据科学家入门·完结）

ShowMeAI研究中心

03-02

1万+

本篇为『图解Pandas数据变换高级函数』，讲解3个函数是map、apply和applymap，更高效地完成数据处理过程中对DataFrame进行逐行、逐列和逐元素的操作。

EduCoder Pandas高效化运算与时间序列处理第3关：Pandas时间序列的高级应用

weixin_43608722的博客

05-26

2099

大数据与数据挖掘技术数据预处理-标准化

02-25

### 大数据与数据挖掘中的数据预处理标准化 #### 数据清洗在大数据环境中，由于数据源的多样性以及采集方式的不同，所获取的数据通常存在缺失值、异常值等问题。对于这些问题，可以通过删除含有大量缺失值的记录或属性来解决；也可以采用均值填充法、中位数填充法等方式填补缺失值[^1]。 #### 数据集成当来自多个不同源头的数据被整合在一起时，可能会遇到命名冲突（例如同一实体有不同的名称）、重复记录等情况。此时应建立统一的标准编码体系以消除这些差异，并利用唯一键或其他机制识别并去除冗余项[^2]。 #### 数据转换为了使不同类型的数据能够更好地适应特定算法的要求，常常需要对其进行规范化操作。这包括但不限于： - **离散化**：将连续型变量划分为若干区间段； - **平滑处理**：减少噪音影响，比如使用移动平均滤波器； - **聚合计算**：按一定规则汇总统计信息，如求和、计数等； - **编码映射**：把类别标签转化为数值形式以便于计算机理解加工[^4]。 ```python import pandas as pd from sklearn.preprocessing import StandardScaler, OneHotEncoder # 假设有一个DataFrame对象df包含了待处理的数据表单 scaler = StandardScaler() df[['numeric_feature']] = scaler.fit_transform(df[['numeric_feature']]) encoder = OneHotEncoder(sparse=False) encoded_features = encoder.fit_transform(df[['categorical_feature']]) df_encoded = pd.DataFrame(encoded_features, columns=encoder.get_feature_names_out(['categorical_feature'])) df_final = pd.concat([df.drop('categorical_feature', axis=1), df_encoded], axis=1) ``` 上述代码展示了如何运用Python库`pandas`配合机器学习工具包`sklearn`实现对数值特征进行标准缩放以及对分类特征执行独热编码的过程。 #### 数据规约面对海量级的大规模数据集合，直接在其基础上开展深入研究往往是低效甚至不可能完成的任务。因此有必要采取措施降低其复杂度而不显著损害有用的信息含量。具体做法涉及以下几个方面： - **维度过滤/降维**：仅保留那些最能代表整体特性的少数几个维度； - **实例选择**：挑选最具代表性的小样本子集代替整个群体参与建模训练过程； - **参数简化**：压缩某些高度关联但又相互独立存在的指标至单一衡量尺度之上[^3]。