立即学习:https://edu.youkuaiyun.com/course/play/26990/361136?utm_source=blogtoedu
数据离散化处理:
- 数据离散化就是分箱
- 一般常用分箱方法是等频分箱或者等宽分箱
- 一般使用pd.cut或者pd.qcut函数
等频分箱:当把数据分成几段以后,样本个数相等。
等宽分箱:标准或者箱子的宽度是一样的。
语法: pandas.cut(x, bins, right = True, labels)
x:离散化的数目, 或者切分的区间
labels:离散化后各个类别的标签
right:是否包含区间右边的值
df['age_bin'] = pd.cut(df['age_new'], 5, labels = range(5))
本文详细介绍了数据离散化处理的两种主要方法:等频分箱和等宽分箱,并展示了如何使用Python的pandas库中的cut和qcut函数进行实际操作。通过具体的语法示例,读者可以了解到如何将连续数据转换为类别数据,这对于数据分析和机器学习任务至关重要。
1万+

被折叠的 条评论
为什么被折叠?



