主要是对说说关于密度聚类DBSCAN,这个算法比较新。
确实表现的效果也比较好,能够解决一些问题。
密度聚类,是假设聚类结构能够通过样本分布的紧密程度来确定,使用密度聚类才有效。
首先掌握该算法要知道几个关键的属性:
邻域,核心对象,密度直达,密度可达,密度相连。
以及两条重要的性质:
连接性:表示的是同一个簇中,两个对象是相连接的
最大性:表示的是如果一个簇中的对象能够密度可达另一个对象,则这两个对象是在一个簇内的。
核心思想:
如果一个核心对象,密度可达的所有样本组成的集合为满足连接性和最大性的簇(有点拗口,好好理解一下)。
如果是分类和回归,都有评价指标,比如分类的问题,我们可以用F1,召回率,准确率,精确率,ROC曲线,AUC等等。
回归问题的话,MSE,RMSE等等。但是聚类的评价指标怎么计算?
关于聚类的有效性指标,目的是同一簇的样本尽可能的相似,不同簇的样本尽可能的不同。
聚类性能的度量有两种:
外部指标:聚类结果和某个参考模型进行比较获得的。
内部指标:考察聚类结果而得到的,并不利用任何参考模型。
外部指标常用的有:Jaccrd系数,FM指数,以及ARI指数这几个常用的指标。
内部指标常用的有:DB指数。
其中在做聚类的时候,有个小小的注意点,聚类是基于距离的度量和计算的,对于连续型数值是没问题的,但是如果遇到类别型数据利用类别的数值直接计算是没有意义的。其中的处理参见,西瓜书中的VDM距离的计算。在聚类这一章是有的。VDM能能够处理非数值类属性,它刻画的是属性取值在各簇上的频率分布之间的差异。