机器学习实战 - 读书笔记(10) - 利用Ｋ-均值聚类算法对未标注数据分组

最新推荐文章于 2025-09-07 19:29:44 发布

weixin_30535565

最新推荐文章于 2025-09-07 19:29:44 发布

阅读量164

点赞数

CC 4.0 BY-SA版权

文章标签：人工智能数据结构与算法

原文链接：http://www.cnblogs.com/steven-yang/p/5787887.html

本文介绍非监督学习中的聚类分析，并重点讲解K-均值聚类算法及其改进版——二分K-均值算法。通过实例展示如何利用这些算法对未标注数据进行分组，探讨算法优缺点及后处理技术。

前言

最近在看Peter Harrington写的“机器学习实战”，这是我的学习心得，这次是第10章 - 利用Ｋ-均值聚类算法对未标注数据分组。

非监督学习
Unsupervised learning is the machine learning task of inferring a function to describe hidden structure from unlabeled data.
聚类（Clustering）
Cluster analysis or clustering is the task of grouping a set of objects in such a way that objects in the same group (called a cluster)
are more similar (in some sense or another) to each other than to those in other groups (clusters).
SSE（Sum of Squared Error，误差平方和）
一种用于度量聚类效果的指标。簇中所有点离簇心的距离平方的总和。
后处理
在算法产生之后，对算法结果进行修正。
比如：对k均值聚类算法的修正方法：合并最近的质心，或者合并两个使得SSE增幅最小的质心。

创建k个点作为起始质心（经常是随机选择）
当任意一个点的簇分配结果发生改变时
    对数据集中的每个数据点
        对每个质心
            计算质心与数据点之间的距离
        将数据点分配到距其最近的簇
    对每一个簇，计算簇中所有点的均值并将均值作为质心

将所有点看成一个簇
当簇数目小于k时
    对于每一个簇
        计算总误差
        在给定的簇上面进行K均值聚类（K=2）
        计算将该簇一分为二之后的总误差
    选择使得误差最小的那个簇进行划分操作

转载于:https://www.cnblogs.com/steven-yang/p/5787887.html