一,离散化处理(分箱操作)pandas
(1)
这里先定义了一个bins用于规定区间边界
cut方法里的第一个参数是对谁进行划分
第二个参数(bins)是如何划分区间(这里是划分了4个区间)
第三个参数(right)的值为False时区间是左闭右开,为True时是左开右闭(默认为True)
第四个参数(labels)是对每个区间依次对应并进行命名
然后value_counts()是统计落在区间上的元素的个数
等距分箱
这里的random.randint()函数是生成了30个介于1到30的随机整数(左闭右开)
对data里面的数据进行分箱,4表示把数据分成4个区间
bins参数解释(这里的4就是bins参数里面的)
此外cut方法还有多种参数
等频分箱
这里用到了qcut方法,data表示是对其操作的数据,5是表示把数据分成5个区间,每个区间内的数据数量大致相等
二,matplotlib
是什么
为什么使用他
怎么用
安装
导入
参数介绍
在月份和销售额的交点就形成了三角点