对于密度聚类的关键掌握

主要是对说说关于密度聚类DBSCAN,这个算法比较新。

确实表现的效果也比较好,能够解决一些问题。

密度聚类,是假设聚类结构能够通过样本分布的紧密程度来确定,使用密度聚类才有效。

首先掌握该算法要知道几个关键的属性:

    邻域,核心对象,密度直达,密度可达,密度相连。

以及两条重要的性质:

    连接性:表示的是同一个簇中,两个对象是相连接的

    最大性:表示的是如果一个簇中的对象能够密度可达另一个对象,则这两个对象是在一个簇内的。

核心思想:

    如果一个核心对象,密度可达的所有样本组成的集合为满足连接性和最大性的簇(有点拗口,好好理解一下)。

如果是分类和回归,都有评价指标,比如分类的问题,我们可以用F1,召回率,准确率,精确率,ROC曲线,AUC等等。

回归问题的话,MSE,RMSE等等。但是聚类的评价指标怎么计算?

关于聚类的有效性指标,目的是同一簇的样本尽可能的相似,不同簇的样本尽可能的不同。

聚类性能的度量有两种:

    外部指标:聚类结果和某个参考模型进行比较获得的。

    内部指标:考察聚类结果而得到的,并不利用任何参考模型。

外部指标常用的有:Jaccrd系数,FM指数,以及ARI指数这几个常用的指标。

内部指标常用的有:DB指数。

其中在做聚类的时候,有个小小的注意点,聚类是基于距离的度量和计算的,对于连续型数值是没问题的,但是如果遇到类别型数据利用类别的数值直接计算是没有意义的。其中的处理参见,西瓜书中的VDM距离的计算。在聚类这一章是有的。VDM能能够处理非数值类属性,它刻画的是属性取值在各簇上的频率分布之间的差异。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

在路上0616

随缘吧打赏与否还是会坚持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值