反作弊中的无监督算法2_聚类的4种方式及典型算法

一、从迭代学习的过程,聚类的方式可分为:
1)基于原型聚类
2)基于密度的聚类
3)基于模型:基于概率模型(高斯混合模型)、基于神经网络的;
4)基于层次聚类:

二、从类或簇的形式分
1)以中心定义的簇:规则形的分布,形状与度量的距离有关
2)以密度定义的簇:对形状不敏感,在处理不规则或缠绕等复杂情况、有噪声和离群点的时候比较合适。
3)以联通定义的簇:这类数据集合中的数据点和数据点之间有连接关系,整个数据簇表现为图结构。它同样对数据形状不敏感。

一、基于原型聚类(K-means)

原型 通常指具有连续特征的相似点的质心,或者中心。简单说就是对于一堆待聚类的数据点,先确定最后期望聚成几类,然后挑选几个点作为初始中心点,根据预定的启发式的方法做迭代,直到达到我们的停止条件。在期望聚类数目确定、初始中心点的挑选、噪声和离群点处理,数值以及类别型数据处理方法、引入核方法等具体细节上的不同衍生出了不同的聚类算法,但是毫无疑问最起源的一个算法就是k-means算法,这也是我们这里将要详述的算法[1]。

1) 原理:

  • 随机从样本中挑选k个质心作为初始集群中心
  • 将每个样本分配到最近的质心 μ ( j ) , j ∈ 1 , . . . , k \mu^{(j)},j∈{1,...,k} μ(j)j1,...,k
  • 把质心分配到已分配样本的中心
  • 重复步骤2和3,直到集群赋值不再改变,或者用户达到定义的公差或者最大迭代数。

度量对象之间相似性的方法,欧式距离的平方
距离和相似性的文章:https://cloud.tencent.com/developer/article/1668762

2)优缺点:
优点:极易实现且计算效率也很高。
缺点:必须指定集群数k,k的选择不当会导致性能不良。

3)超参数
分类数量、最大迭代次数

二、基于密度聚类:DBSCAN原理、参数

基于密度的聚类方法:把集群标签分配给样本数据点密集的区域。为了处理以密度为特征的类而设计的算法,最初始的算法为DBSCAN。
1)原理
3种点:
边界点:在半径范围 e p l i s o n eplison

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值