文章目录
一、从迭代学习的过程,聚类的方式可分为:
1)基于原型聚类
2)基于密度的聚类
3)基于模型:基于概率模型(高斯混合模型)、基于神经网络的;
4)基于层次聚类:
二、从类或簇的形式分
1)以中心定义的簇:规则形的分布,形状与度量的距离有关
2)以密度定义的簇:对形状不敏感,在处理不规则或缠绕等复杂情况、有噪声和离群点的时候比较合适。
3)以联通定义的簇:这类数据集合中的数据点和数据点之间有连接关系,整个数据簇表现为图结构。它同样对数据形状不敏感。
一、基于原型聚类(K-means)
原型 通常指具有连续特征的相似点的质心,或者中心。简单说就是对于一堆待聚类的数据点,先确定最后期望聚成几类,然后挑选几个点作为初始中心点,根据预定的启发式的方法做迭代,直到达到我们的停止条件。在期望聚类数目确定、初始中心点的挑选、噪声和离群点处理,数值以及类别型数据处理方法、引入核方法等具体细节上的不同衍生出了不同的聚类算法,但是毫无疑问最起源的一个算法就是k-means算法,这也是我们这里将要详述的算法[1]。
1) 原理:
- 随机从样本中挑选k个质心作为初始集群中心
- 将每个样本分配到最近的质心 μ ( j ) , j ∈ 1 , . . . , k \mu^{(j)},j∈{1,...,k} μ(j),j∈1,...,k
- 把质心分配到已分配样本的中心
- 重复步骤2和3,直到集群赋值不再改变,或者用户达到定义的公差或者最大迭代数。
度量对象之间相似性的方法,欧式距离的平方
距离和相似性的文章:https://cloud.tencent.com/developer/article/1668762
2)优缺点:
优点:极易实现且计算效率也很高。
缺点:必须指定集群数k,k的选择不当会导致性能不良。
3)超参数
分类数量、最大迭代次数
二、基于密度聚类:DBSCAN原理、参数
基于密度的聚类方法:把集群标签分配给样本数据点密集的区域。为了处理以密度为特征的类而设计的算法,最初始的算法为DBSCAN。
1)原理
3种点:
边界点:在半径范围 e p l i s o n eplison