【Python】DataFrame的列标准化

这里分享DataFrame的列标准化以及对DataFrame分组之后列标准化。

  1. DataFrame的列标准化
import pandas as pd
import numpy as np
df = pd.DataFrame(data={
    'A':[1,1,2,2,2],
    'B':[2,3,4,6,5],
    'C':[3,8,5,12,6]
})
df

在这里插入图片描述

df.apply(lambda x : (x-np.min(x))/(np.max(x)-np.min(x)))

在这里插入图片描述
3. DataFrame分组之后列标准化
eg:将df按照A列分组,然后对每组进行标准化

df.groupby('A').apply(lambda x: (x - np.min(x)) / (np.max(x) - np.min(x)))

在这里插入图片描述
可以看到分组标准化之后第一列都是NaN,这时如果想要加上第一列,可以用concat函数:

pd.concat([df['A'],(df.groupby('A').apply(lambda x: (x - np.min(x)) / (np.max(x) - np.min(x))))[['B','C']]],axis=1)

在这里插入图片描述

欢迎添加个人微信号:liu2536036458。
想进入交流群的,备注:数据分析交流群

### 数据标准化的概念与实现 数据标准化是一种常见的预处理技术,用于将不同量纲或范围的数据转换到同一尺度下。对于 `pandas` 的 `DataFrame` 对象而言,可以通过多种方式对每一进行标准化处理。 以下是基于均值和标准差的 Z-Score 标准化方法的实现: ```python import pandas as pd import numpy as np # 创建示例 DataFrame df = pd.DataFrame({ 'A': [1, 2, 3, 4, 5], 'B': [10, 20, 30, 40, 50], 'C': [100, 200, 300, 400, 500] }) # 定义标准化函数 def standardize_column(column): mean = column.mean() std = column.std() return (column - mean) / std if std != 0 else column # 应用标准化到每一 df_standardized = df.apply(standardize_column) print(df_standardized) ``` 上述代码通过计算每的均值和标准差完成标准化[^1]。如果某的标准差为零,则返回原始以避免除零错误。 另一种常用的方法是 Min-Max 标准化,它将数据缩放到指定区间(通常是 `[0, 1]`)。其实现如下所示: ```python # 定义 Min-Max 标准化函数 def min_max_scale(column): col_min = column.min() col_max = column.max() return (column - col_min) / (col_max - col_min) if col_max != col_min else column # 应用 Min-Max 标准化到每一 df_minmax_scaled = df.apply(min_max_scale) print(df_minmax_scaled) ``` 此方法适用于需要保持相对比例关系的情况[^2]。 此外,在大规模数据场景中需要注意内存优化问题。可以考虑调整数据类型以减少占用空间,并及时释放不再使用的变量以便垃圾回收机制清理资源[^3]。 最后值得注意的是,某些情况下可能还需要针对特定业务逻辑设计自定义规范化方案或者采用其他机器学习库提供的工具如 scikit-learn 中的相关模块来进行更复杂的特征工程操作[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值