应用

评价指标


距离

k-means算法
前提要选取k个点

重心点不变了就可以。
存在的问题
1、初始点
2、k,从1开始试,慢慢增加,看趋势

聚类之前需要做的事
!!!一定要归一化,不同维度的值统一到一个范围中。

以及均值中心化。
2、k-means++

这里的概率就是用轮盘赌算法

对于数值型的,可以算距离;对于离散的属性,怎么算距离?
K-prototype

为了防止分类距离对整体距离的影响

还与分类属性的取值频度也有关系,比如某个属性上样本之间取值都一样,但是并不代表没有距离。
快速峰值密度搜索聚类
假设

每个点画个圈,数点表示密度;
离另一个密度大的点的距离
B图是决策图
聚类中心点自动剔除,以及删除异常点。
快,体现在只算一次。

1626

被折叠的 条评论
为什么被折叠?



