[Python] 变量重分类（连续变量重分类、离散变量重分类）

最新推荐文章于 2024-08-15 11:08:42 发布

原创

最新推荐文章于 2024-08-15 11:08:42 发布 · 4.3k 阅读

19 ·

CC 4.0 BY-SA版权

本文为原创文章，未经本人许可不得转载，引用请注明出处。

文章标签：

#python #分类 #数据分析

本文介绍了如何使用Python进行连续变量和离散变量的重分类。对于连续变量，详细阐述了等宽和等频两种重编码方法，并给出了具体案例。离散变量的重分类则包括将分类信息映射到单一指标以及通过`pd.get_dummies()`创建多个指标。内容涵盖了从简单的数据处理到复杂的数据转换技巧。

1. Python连续变量重分类

cut( )函数

新变量 = pd.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)

# x：待分类的变量
# bins：分段的依据
# right：right=True表示分段后包含右边的数，即左开又闭(X,X]
# labels：分类后新的分类标签，若不修改默认以(X,X]/[X,X) 的格式显示
# 其他参数详见：help(pd.cut)

1.1 等宽重编码

案例：

一份df格式的2020年的人口数据，数值为连续型，最小值为0，最大值为109695.39。现在需要分段为0，(0,100]、(100,300]、(300,500]、(500,700]、(700,900]、(900,1100]、(1100,1300]、1300及以上9类。

#格式左开右闭，从零开始(XX]，bins需要加一个最大值
bins = [0,100,200,300,500,700,900,1100,1300,max(df['2020'])] #10个数，9个空格，产生9类
df['2020分层'] = pd.cut(df['2020'],bins,right=True)

#给重分类结果添加标签
bins = [0,100,200,300,500,700,900,1100,1300,max(Wpop2['2020'])]
df['2020分层'] = pd.cut(df['2020'],bins,right=True,labels=[1,2,3,4,5,6,7,8,9])