立即学习:https://edu.youkuaiyun.com/course/play/26990/361136?utm_source=blogtoedu
数据离散化就是分箱
- 一般分箱方法:等频分箱;等宽分箱
- 函数pd.cut(x,bins=,right=True,labels)
- .value_counts() 计算频数,y
- ..plot(kind='bar') 柱状图
- .hist()
k=5
w=1.0 * i/k for i in range(k+1)
等频分断2种:一种是pd.qcut(df['price',q=w,labels=range(5));
另外先计算分割点,并处理最大值最小值,pd.cut()