Day Six——使用pandas寻找关联规则
第一部分数据data.xls
第二部分数据apriori.txt
第一部分——使用Kmean聚类数据
对应函数programmer_1
步骤:
- 读取数据,对类别进行字符化,转换为’A’,’B’,’C’……
- 使用
Kmeans
进行离散化,这里聚类前要将数据离散化as_matrix()
- 得到聚类中心、进行分类统计,最后合并为新的
DataFrame
- 计算边界点(相邻两列的均值),转换
NaN
为0.0
输出如下:
1 2 3 4
A 0.0 0.178855 0.258081 0.352043
An 240.0 359.000000 278.000000 53.000000
B 0.0 0.154031 0.306200 0.564697
Bn 342.0 384.000000 194.000000 10.000000
C 0.0 0.202038 0.288739 0.423325
Cn 297.0 392.000000 206.000000 35.000000
D 0.0 0.173544 0.252731 0.359726
Dn 292.0 370.000000 224.000000 44.000000
E 0.0