数据聚类与异常值检测全解析
1. MiniBatchKmeans 聚类
MiniBatchKmeans 是一种对大规模数据集进行 K-means 聚类的有效方法。以下是使用 MiniBatchKmeans 的代码示例:
random_state=1
batch = 100
for row in range(0, len(Cx), batch):
if row+batch < len(Cx):
feed = Cx[row:row+batch,:]
else:
feed = Cx[row:,:]
batch_clustering.partial_fit(feed)
batch_inertia = batch_clustering.score(Cx) * -1
print("MiniBatchKmeans inertia: %0.1f" % batch_inertia)
该脚本遍历先前缩放和 PCA 简化后的数据集(Cx)的索引,每次创建 100 个观测值的批次。使用 partial_fit 方法,对每个批次进行 K-means 聚类,并使用上一次调用找到的质心。当数据耗尽时,算法停止。然后使用 score 方法对所有可用数据进行评估,报告 10 个聚类解决方案的惯性。需要注意的是,MiniBatchKmeans 的惯性通常比标准算法略高,虽然差异很小,但拟合效果稍差,因此建议在无法处理内存中数据集时使用此方法。
2. 层次聚类
层次聚类(也称为凝聚聚类
超级会员免费看
订阅专栏 解锁全文

12

被折叠的 条评论
为什么被折叠?



