数据挖掘笔记：聚类

不能用数字

已于 2024-12-26 10:32:30 修改

阅读量305

点赞数 1

文章标签：数据挖掘聚类

于 2024-05-12 22:13:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_63218152/article/details/138157452

版权

6.1什么是聚类

将数据对象集合分组，形成聚类簇

特点：非监督，无标签（若有标签则可以归于分类），没有明确目标/把表现作为任务，数据分组，评估不便。

目标：簇内相似（半径小），簇间不相似（距离大）

使用场景：对数据先验知识不多。有时作为预处理的一部分，作为获得数据分布的独立工具。

聚类评价指标：准确率、召回率、精度、查全率

（指标好不代表结果正确）

应用：

用户分组；
异常点检测——离群点（某簇内样本很少，异常的簇间距离。用于分析信用卡盗用、噪音、虚假评论）（类比分类中的不平衡分类，对此任务，无监督的聚类方法可能性能更好）

6.3

簇的不确定：几个簇

粒度的适当，取决于具体场景。

信息增益指标：数值上分越细越好

聚类的类型：

分层：层次树

分割

其他区别：

排他/不排他：一个点属于几个类，

模糊/不模糊：模糊聚类中，一个点属于每一个权重在0~1的类，权重累计为1，即属于一类的概率

部分/完全：只聚类一部分点

异类和同类：指数据的形态/规律，对聚类效果有影响

按聚类方法：基于中心、密度（适用于不规则）、概念聚类（共同属性/表示某概念）、目标函数定义

聚类的距离计算

6.4聚类算法

6.4.1

K均值聚类（K-means）：离一个类的质心距离最近，聚类数K必须由用户指定，算法较简单

初始质心常随机选择或数据的中心点，迭代次数与初始质心的选择好坏有关

关键点：K的选取，初始质心的选择，距离的计算

改进：二分K均值算法：降低算法对K和初始质心的敏感度

K-means局限：不能处理不同尺寸、不同密度、非球型簇，处理含有离群点或噪声数据受影响较大

克服局限性：设置一个足够大的K（算法存在局限，但在应用上能使其可接受）

6.4.2凝聚层次聚类

层次：1.凝聚层次：小的簇合并，从下到上组成层次

2.分裂层次：大的簇分裂，从上到下分割层次

表示用层次树来组织的一组嵌套簇图，可以用层次树来表示

特点：更常用

主要算簇的距离。计算临近度矩阵，使每一个点成为一个簇，迭代合并最近的两个簇并更新矩阵，直到剩下唯一的簇

MST：层次聚类算法

怎么定义簇的邻近性：min,max,组平均，簇间距，目标函数引出方法

max或全链

组平均：单链和全链的折中，缺点是趋向于圆形

Ward's：指标引导的选择方法，SSE最小

层次聚类缺陷：合并决策是最终的，缺乏全局目标函数，不同策略对噪音、尺寸、不规则形状、大簇可能出现问题

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。