连续变量离散化教程

最新推荐文章于 2024-03-16 11:56:44 发布

原创最新推荐文章于 2024-03-16 11:56:44 发布 · 1.3k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#pandas #python #数据分析

python 专栏收录该内容

259 篇文章

订阅专栏

本文介绍了pandas库中用于连续数据分组的cut和qcut函数。cut函数允许指定分组边界，如将年龄分为[18,25],[26,35],[35,60]和60以上四组，并可调整边界包含性。qcut函数则根据数据分布自动创建等分组，确保每组元素数量相等。这两个函数对于数据分析中的数据离散化非常有用。

为了分析连续数据，通常需要离散化或分成组。本文介绍pandas包中cut和qcut函数，对连续变量进行使用不同方式进行分组。

cut函数

假设有一组人年龄数据，现在需要分为几组，分别为[18,25],[26,35],[35,60]以及60以上。实现代码：

ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
bins = [18, 25, 35, 60, 100]
cats = pd.cut(ages, bins)

print(cats)
pd.value_counts(cats)

# (18, 25]     5
# (35, 60]     3
# (25, 35]     3
# (60, 100]    1

与数学符合保持一致，圆括号表示不包括，中括号表示包括边界值。我们也可以通过right=False改变右侧编边界：

right参数

pd.cut(ages, [18, 26, 36, 61, 100], right=False)

标签参数

我们也可以传入分组名称作为标签：

group_names = [' Youth' , ' YoungAdult' , ' MiddleAged' , ' Senior' ]
pd.cut(ages, bins, labels=group_names)

qcut函数

如果你给cut函数传入整数表示分组数量，而不是显示指明分组边界，则会根据数据集中最大值和最小值按照等长进行计算。下面示例把均匀分布数据分为四组：

data = np.random.rand(20)
pd.cut(data, 4, precision=2)

pd.value_counts(cats)

# (0.26, 0.5]      6
# (0.74, 0.99]     5
# (0.011, 0.26]    5
# (0.5, 0.74]      4

与之类似函数是qcut，基于相同数量进行分组。
数据分布不同，使用cut不一定分组有相同元素，因此qcut可以实现每组元素相同。代码如下：

data = np.random.randn(1000) # Normally distributed
cats = pd.qcut(data, 4) # Cut into quartiles
pd.value_counts(cats)

# (0.666, 3.23]         250
# (-0.00942, 0.666]     250
# (-0.651, -0.00942]    250
# (-3.186, -0.651]      250

与cut类似，也可以传入自己的数量范围：