ISODATA算法 python实现

原创

已于 2022-11-18 10:07:36 修改 · 7.5k 阅读

75 ·

CC 4.0 BY-SA版权

文章标签：

#python #算法 #聚类

于 2022-01-10 15:08:03 首次发布

本文介绍ISODATA算法，一种能够动态调整聚类数量的方法。它通过分裂与合并操作，不断优化聚类效果，适合处理复杂数据分布场景。文章提供Python实现代码及详细迭代过程。

文章目录

前言
一、ISODATA的流程
- 1.流程图（这里按迭代的奇偶来判断分裂或者合并）
二、使用步骤
- 1.代码实现
- 2.迭代过程
3. 总结

前言

ISODATA经常被用来与Kmeans算法进行对比，其本质也是按照欧式距离来对样本进行分类，不同的是ISODATA可以根据一个大概的指定类别数去确定最终的聚类数（两者可能不同），而Kmeans指定聚类数是多少后，最终的聚类就一定是多少。

一、ISODATA的流程

本质上只有分裂和合并两个步骤加更新中心三个步骤。了解这个算法，核心需要解决下面的三个问题：

Question 1. 什么时候分裂？

现有的聚类数太少就进行分裂。你一开始指定100个聚类，现在只有2个，那就进行分裂。（大的分裂方向，还有细节见下面流程图）

Question 2. 什么时候合并？

现有的聚类数太多就进行分裂。你一开始指定100个聚类，现在上一次刚好裂成200个，那就进行合并。（大的合并方向，还有细节见下面流程图）

Question 3. 现在有的中心数不上不下怎么办？

如果是奇数次迭代，那就尝试去分裂吧（虽然最后不一定分裂了）
如果是偶数次迭代，那就尝试去合并吧（虽然最后不一定合并了）

1.流程图（这里按迭代的奇偶来判断分裂或者合并）

在这里插入图片描述

注意:

在流程图中，“合并”步骤并不一定执行了合并，只有满足在所有的中心中，存在一些中心的距离太近（这个距离低于了设定的阈值）才会真正的执行合并的操作，其余不执行合并的操作。而在分裂中，只有现有的中心数太少或者满足”类内的距离太大而且样本数太少“进行分裂的操作。其中类内的距离太大则表示了这个聚类太过于松散，再加上类的数量太少的话，才进行分裂。

分裂的细节：如何分裂？

计算需要分裂的这个簇在各个维度上的方差，如果最大的方差超过了特定的阈值，就在这个最大方差的维度上分裂成两个，其他维度的值保持不变。

比如现在有一个中心 (1, 3) ，对于属于这个中心的所有样本，我们计算其在第一个维度 (数值1的维度) 的方差，再计算其在第二个维度 (数值3的维度) 的方差。假设维度1计算的方差结果为 0.3，维度2计算的方差为1.5，预先设定的阈值为0.5；所以我们要在第二个维度上把中心分成2个：（1, 3 + 1.5 * k ), (1, 3 - 1.5 *k) ，其中k又是控制分裂远近的一个超参数，在代码中取0.5。由此，我们得到了新分裂的两个中心，并把原来的中心去掉。

合并的细节：如何合并？

合并使用加权平均的方法，两个权重是两个中心控制的两簇样本的数量百分比，加权求和即可。

二、使用步骤

1.代码实现

Tips: 注意需要用到sklearn的库来产生数据集：

# -*- encoding:utf-8 -*-
"""
@author:zsiming
@fileName:ISODATA.py
@Time:2022/1/9  12:33
"""
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.metrics import euclidean_distances


class ISODATA():
    def __init__(self, designCenterNum, LeastSampleNum, StdThred, LeastCenterDist, iterationNum):
        #  指定预期的聚类数、每类的最小样本数、标准差阈值、最小中心距离、迭代次数
        self.K = designCenterNum
        self.thetaN = LeastSampleNum
        self.thetaS = StdThred
        self.thetaC = LeastCenterDist
        self.iteration = iterationNum

        # 初始化
        self.n_samples = 1500
        # 选一
        self.random_state1 = 200
        self.random_state2 = 160
        self.random_state3 = 170
        self.data, self.label = make_blobs(n_samples=self.n_samples, random_state=self.random_state3)

        self.center = self.data[0, :].reshape((1, -1))
        self.centerNum = 1
        self.centerMeanDist = 0

        # seaborn风格
        sns.set()

    def updateLabel(self):
        """
            更新中心
        """
        for i in range(self.centerNum):
            # 计算样本到中心的距离
            distance = euclidean_distances(self.data, self.center.reshape((self.centerN

最低0.47元/天解锁文章

21 条评论

hujt2002 2025.03.26
combine中117,118行的self.centerNum已被更新过不能作为除数，可考虑设一个local变量

大明王爷朱载堉 2024.03.08
感觉您的代码有几处问题：首先在合并过程中，如果出现有新的中心一个元素都没有，那么sameClassSample为空会报错其次合并操作，while循环内的每一次合并，都要及时把旧的中心删除，而且要更新self.label，self.center，否则如果新的中心和其他中心的距离依然小于阈值，下一个中心的位置无法计算，因为你不知道新中心的元素数分裂操作倒是没什么问题。最后是train没有办法稳定的控制聚类数目，最好是不固定循环数，然后设置一个最小循环数，一直循环直到聚类数目等于预定的聚类数

xzh-yyds 2023.04.15
想问一下，这里的聚类最小数量（theTaN）似乎只有在分裂的时候用到。按照isodata算法，如果发现某个聚类的数目小于最小数量数量的话也会删除这个聚类中心吧

weixin_41608074 2023.01.10
data里面的第一个数据为啥会被替换掉了呢？
- zsiming回复weixin_41608074 2023.01.11
  给了三种random_state,是因为实验的时候想看看不同数据的效果。当然不同的state需要各自合适的超参数~

weixin_49930961 2022.11.04
请问怎么自己加载数据，不用 make_block 生成的数据？
- zsiming回复weixin_49930961 2022.11.05
  在__init__函数里面的self.data和self.label换成你自己读数据的程序就可以了~

weixin_49930961 2022.11.04
请问怎么自己加载数据，不用 make_block 生成的数据？
- 大明王爷朱载堉回复weixin_49930961 2024.03.08
  self.data self.lable直接改一下就行了

muchenforever 2022.08.09
如何用来给粒子群算法分群呢

Maui- 2022.07.01
阈值怎么设定呀
- zsiming回复Maui- 2022.07.01
  阈值是个超参数来的，只能网格搜索或者根据经验设定噢

白玉尘 2022.04.22
程序怎么读取数据的啊？
- zsiming回复白玉尘 2022.04.29
  数据是在sklearn的库里面生成的在29行的make_block函数中~

肉肉的求学路 2022.03.08
有直接用在遥感上的isodata代码吗
- zsiming回复snoopy_21 2022.11.10
  纯路人~
- snoopy_21回复zsiming 2022.11.02
  小黑子
- 肉肉的求学路回复PCTHEONE 2022.09.20
  哈哈哈哈哈哈，最终只能这样了
- zsiming回复PCTHEONE 2022.09.17
  你干嘛哈哈哎呦~
- PCTHEONE回复肉肉的求学路 2022.09.16
  envi里可以一键isodata的（狗头）
- zsiming回复肉肉的求学路 2022.03.22
  没有噢