非监督学习算法K均值(K-Means)探讨

最新推荐文章于 2025-01-03 22:59:07 发布

原创

最新推荐文章于 2025-01-03 22:59:07 发布 · 1.3k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #k均值聚类算法 #机器学习 #Sklearn #python

本文深入探讨了K均值算法，从基础介绍到实现过程，再到改进版的二分K均值算法。通过Python实现并可视化，展示算法如何逐步划分数据点。此外，还介绍了Sklearn库中的K-Means实现，强调其通过多次运行寻找全局最优解的策略。

一 K均值算法介绍及实现
二改进版本的K均值算法二分K均值算法
三 SKlearn库中的K-Means

一. K均值算法介绍及实现

K均值算法（K-means)是无监督学习中的一种，其算法简洁容易实现，且Sklearn包中也提供了相应的模块可以直接调用。在<<机器学习实战>>书中，也对该算法进行了介绍。

常规的K-means算法在<<机器学习实战>>书中介绍如下：

k 均值是发现给定数据集的 k 个簇的算法。簇个数 k 是用户给定的，每一个簇通过其质心（ centroid），即簇中所有点的中心来描述。

下图是一个典型的例子。给定一个原始数据集（未标注的数据点的集合），通过K均值算法，可以给出哪些数据点是“相互靠的更近”而可以被归为一类（簇）的。同时也可以计算出各个类别的“中心点”，即质心。注意，“相互靠的更近”的定义，可以自己来规定，不一定要局限于数据点的几何距离。

不过该算法需要预先指定质心的数量。当然我们的目标应该是用尽可能少的质心，来更好的分隔数据点。
这里写图片描述

其伪代码如下：

*: k为最终簇（也即质心）的数量

创建 k 个点作为起始质心（经常是随机选择）
当任意一个点的簇分配结果发生改变时
– 对数据集中的每个数据点
— 对每个质心
— 计算质心与数据点之间的距离
— 将数据点分配到距其最近的簇
– 对每一个簇，计算簇中所有点的均值并将均值作为质心
如果所有点的簇分配结果都没有变化，终止循环。并将最终的分配结果返回。

该伪代码的python实现已经由《机器学习实战》一书给出。下下面的代码额外加上了使用matplot绘的函数，以便将结果可视化。

from numpy import *
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

def loadDataSet(fileName):      
    '''
    @fun: 载入文件，并将文件里的数据转化为float型
    @input: fileName --- 文件地址
    @return: list型的数据
    注意：这里的文件是原始数据集。每一行对应了一个点。每一行有两个数据，第一个为x坐标，第二个为y坐标。两个数据由Tab分开
    '''
    dataMat = []               
    fr = open(fileName)
    for line in fr.readlines():
        curLine = line.strip().split('\t') #按tab来分隔数据
        fltLine = list(map(float,curLine))
        dataMat.append(fltLine)
    return dataMat

def distEclud(vecA, vecB):
    #计算两个向量的欧式公式。将每个向量看成一个点。
    return sqrt(sum(power(vecA - vecB, 2)))

def randCent(dataSet, k):
    '''
    @fun: 产生K个随机的质心
    @input: dataSet --- 数据集
            k --- 随机质心的数量
    @return: matrix. 每一行为一个随机质心的坐标向量
    '''
    n = shape(dataSet)[1]
    centroids = mat(zeros((k,n)))
    for j in range(n):
        minJ = min(dataSet[:,j]) 
        maxJ=max((dataSet[:,j]))
        rangeJ= float(maxJ- minJ)
        centroids[:,j] = mat(minJ + rangeJ * random.rand(k,

最低0.47元/天解锁文章