6.1什么是聚类
将数据对象集合分组,形成聚类簇
特点:非监督,无标签(若有标签则可以归于分类),没有明确目标/把表现作为任务,数据分组,评估不便。
目标:簇内相似(半径小),簇间不相似(距离大)
使用场景:对数据先验知识不多。有时作为预处理的一部分,作为获得数据分布的独立工具。
聚类评价指标:准确率、召回率、精度、查全率
(指标好不代表结果正确)
应用:
- 用户分组;
- 异常点检测——离群点(某簇内样本很少,异常的簇间距离。用于分析信用卡盗用、噪音、虚假评论)(类比分类中的不平衡分类,对此任务,无监督的聚类方法可能性能更好)
6.3
簇的不确定:几个簇
粒度的适当,取决于具体场景。
信息增益指标:数值上分越细越好
聚类的类型:
分层:层次树
分割
其他区别:
排他/不排他:一个点属于几个类,
模糊/不模糊:模糊聚类中,一个点属于每一个权重在0~1的类,权重累计为1,即属于一类的概率
部分/完全:只聚类一部分点
异类和同类:指数据的形态/规律,对聚类效果有影响
按聚类方法:基于中心、密度(适用于不规则)、概念聚类(共同属性/表示某概念)、目标函数定义
聚类的距离计算
6.4聚类算法
6.4.1
K均值聚类(K-means):离一个类的质心距离最近,聚类数K必须由用户指定,算法较简单
初始质心常随机选择或数据的中心点,迭代次数与初始质心的选择好坏有关
关键点:K的选取,初始质心的选择,距离的计算
改进:二分K均值算法:降低算法对K和初始质心的敏感度
K-means局限:不能处理不同尺寸、不同密度、非球型簇,处理含有离群点或噪声数据受影响较大
克服局限性:设置一个足够大的K(算法存在局限,但在应用上能使其可接受)
6.4.2凝聚层次聚类
层次:1.凝聚层次:小的簇合并,从下到上组成层次
2.分裂层次:大的簇分裂,从上到下分割层次
表示用层次树来组织的一组嵌套簇图,可以用层次树来表示
特点:更常用
主要算簇的距离。计算临近度矩阵,使每一个点成为一个簇,迭代合并最近的两个簇并更新矩阵,直到剩下唯一的簇
MST:层次聚类算法
怎么定义簇的邻近性:min,max,组平均,簇间距,目标函数引出方法
max或全链
组平均:单链和全链的折中,缺点是趋向于圆形
Ward's:指标引导的选择方法,SSE最小
层次聚类缺陷:合并决策是最终的,缺乏全局目标函数,不同策略对噪音、尺寸、不规则形状、大簇可能出现问题