数据挖掘笔记:聚类

6.1什么是聚类

将数据对象集合分组,形成聚类簇

特点:非监督,无标签(若有标签则可以归于分类),没有明确目标/把表现作为任务,数据分组,评估不便。

目标:簇内相似(半径小),簇间不相似(距离大)

使用场景:对数据先验知识不多。有时作为预处理的一部分,作为获得数据分布的独立工具。

聚类评价指标:准确率、召回率、精度、查全率

(指标好不代表结果正确)

应用:

  1. 用户分组;
  2. 异常点检测——离群点(某簇内样本很少,异常的簇间距离。用于分析信用卡盗用、噪音、虚假评论)(类比分类中的不平衡分类,对此任务,无监督的聚类方法可能性能更好)

6.3

簇的不确定:几个簇

粒度的适当,取决于具体场景。

信息增益指标:数值上分越细越好

聚类的类型:

        分层:层次树

        分割

其他区别:

        排他/不排他:一个点属于几个类,

        模糊/不模糊:模糊聚类中,一个点属于每一个权重在0~1的类,权重累计为1,即属于一类的概率

        部分/完全:只聚类一部分点

        异类和同类:指数据的形态/规律,对聚类效果有影响

按聚类方法:基于中心、密度(适用于不规则)、概念聚类(共同属性/表示某概念)、目标函数定义

聚类的距离计算

6.4聚类算法

6.4.1

K均值聚类(K-means):离一个类的质心距离最近,聚类数K必须由用户指定,算法较简单

初始质心常随机选择或数据的中心点,迭代次数与初始质心的选择好坏有关

关键点:K的选取,初始质心的选择,距离的计算

改进:二分K均值算法:降低算法对K和初始质心的敏感度

K-means局限:不能处理不同尺寸、不同密度、非球型簇,处理含有离群点或噪声数据受影响较大

克服局限性:设置一个足够大的K(算法存在局限,但在应用上能使其可接受)

6.4.2凝聚层次聚类

层次:1.凝聚层次:小的簇合并,从下到上组成层次

        2.分裂层次:大的簇分裂,从上到下分割层次

表示用层次树来组织的一组嵌套簇图,可以用层次树来表示

特点:更常用

主要算簇的距离。计算临近度矩阵,使每一个点成为一个簇,迭代合并最近的两个簇并更新矩阵,直到剩下唯一的簇

MST:层次聚类算法

怎么定义簇的邻近性:min,max,组平均,簇间距,目标函数引出方法

max或全链

组平均:单链和全链的折中,缺点是趋向于圆形

Ward's:指标引导的选择方法,SSE最小

层次聚类缺陷:合并决策是最终的,缺乏全局目标函数,不同策略对噪音、尺寸、不规则形状、大簇可能出现问题

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值