25、数据聚类与异常值检测全解析

数据聚类与异常值检测全解析

1. MiniBatchKmeans 聚类

MiniBatchKmeans 是一种对大规模数据集进行 K-means 聚类的有效方法。以下是使用 MiniBatchKmeans 的代码示例:

random_state=1
batch = 100
for row in range(0, len(Cx), batch):
    if row+batch < len(Cx):
        feed = Cx[row:row+batch,:]
    else:
        feed = Cx[row:,:]
    batch_clustering.partial_fit(feed)
batch_inertia = batch_clustering.score(Cx) * -1

print("MiniBatchKmeans inertia: %0.1f" % batch_inertia)

该脚本遍历先前缩放和 PCA 简化后的数据集(Cx)的索引,每次创建 100 个观测值的批次。使用 partial_fit 方法,对每个批次进行 K-means 聚类,并使用上一次调用找到的质心。当数据耗尽时,算法停止。然后使用 score 方法对所有可用数据进行评估,报告 10 个聚类解决方案的惯性。需要注意的是,MiniBatchKmeans 的惯性通常比标准算法略高,虽然差异很小,但拟合效果稍差,因此建议在无法处理内存中数据集时使用此方法。

2. 层次聚类

层次聚类(也称为凝聚聚类

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值