聚类-kmeans

最新推荐文章于 2024-07-05 23:11:55 发布

accosmos

最新推荐文章于 2024-07-05 23:11:55 发布

阅读量485

点赞数

分类专栏： AI 文章标签：聚类 kmeans 机器学习

本文链接：https://blog.youkuaiyun.com/qq_36973725/article/details/132858569

版权

聚类算法是无监督学习算法，指定将数据分成k个簇。然后通过每个点到各个簇的中心的欧氏距离来分类。 $d(x,y)=\sqrt{(x_{1}-y_{1}^{2})+(x_{2}-y_{2})^{2}+...+(x_{n}-y_{n})^{2}}$

kmeans本身会陷入局部最小值的状况，二分kmeans可以解决这一点。

二分kmeans是遍历所有的簇，将其分成2个，比较哪一个分裂结果更好，用距离和来代表误差

例如现在只有一个簇A，第一轮分裂成A,A1，下一次比较A，A1两个分裂的结果哪个更换，比如A1更好，所以分裂结果为A，A1,A11。

from __future__ import print_function
from numpy import *


# 从文本中构建矩阵，加载文本文件，然后处理
def loadDataSet(fileName):  # 通用函数，用来解析以 tab 键分隔的 floats（浮点数）
    dataSet = []
    fr = open(fileName)
    for line in fr.readlines():
        curLine = line.strip().split('\t')
        fltLine = map(float, curLine)  # 映射所有的元素为 float（浮点数）类型
        dataSet.append(fltLine)
    return dataSet

# 计算两个向量的欧式距离（可根据场景选择）
def distEclud(vecA,vecB):
    return sqrt(sum(power(vecA-vecB,2))) # la.norm(vecA-vecB)

# 为给定数据集构建一个包含 k 个随机质心的集合。随机质心必须要在整个数据集的边界之内，这可以通过找到数据集每一维的最小和最大值来完成。然后生成 0~1.0 之间的随机数并通过取值范围和最小值，以便确保随机点在数据的边界之内。
def