KMeans聚类:
认为每个聚类都是以聚类中心为均值,方差在各维度相同,且每个聚类的方差也相同,的高斯分布("半径"相等的球形);
给定K,目标是找到K个聚类中心,使得所有样本点的高斯概率之积最大,取log之后变成所有样本距离自己聚类中心的平方之和最小;
初始聚类中心的选择:如KMeans++,依次选择聚类中心时,每次选的点距离其他聚类中心的距离越大,被选中做聚类中心的概率就越大;
K的个数如何确定:elbow(胳膊肘)法,横轴是K,纵轴是误差,选择曲线下降的“拐点”
选中位数做聚类中心,可以降低噪音点带来的影响
密度聚类:
核心对象:该点固定半径r内的点数超过bar,就是核心对象;
直接可达:核心对象x的半径r范围内的点y们,叫做x到y直接可达(y到x不一定直接可达,因为y不一定是核心对象)
一个聚类,就是从一个未访问的核心对象开始,找所有的从他直接可达的核心对象们,迭代下去直到找不到新的核心对象;这些核心对象和他们半径r里的所有点,构成这个聚类;