
聚类
RLilyX
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
BIRCH聚类算法原理
原文地址:https://www.cnblogs.com/pinard/p/6179132.html在K-Means聚类算法原理中,我们讲到了K-Means和Mini Batch K-Means的聚类原理。这里我们再来看看另外一种常见的聚类算法BIRCH。BIRCH算法比较适合于数据量大,类别数K也比较多的情况。它运行速度很快,只需要单遍扫描数据集就能进行聚类,当然需要用到一些技巧,下面我们就对...转载 2018-12-09 10:51:18 · 523 阅读 · 0 评论 -
K-Means算法
1、 K-Means算法说明K个簇的中心分别为 ,每个簇的样本量为 ,目标函数为平方误差(欧式距离),即所有样本到自己所属的簇的中心距离最小。求下述目标函数的最优解可以得到聚类中心的更新公式为如果使用曼哈顿距离度量公式,簇中心更新公式为中值,适用于凸形状,簇大小相近,簇数量较少的聚类。2、 K-Means算法流程输入:样本集 ,聚类的簇数K,最大的迭代次数N输出:类簇划分 (1)...原创 2018-12-01 09:56:15 · 2305 阅读 · 0 评论 -
DBSCAN算法
DBSCAN算法是一种基于密度的聚类算法,它的优势是能够发现任意形状的类别同时DBSCAN还有很强的抗噪性,并且DBSCAN只需扫描一遍数据集即可完成聚类,不用迭代执行。1、 相关定义Eps近邻:Eps为距离阈值,数据p的Eps近邻指的是那些与其距离小于Eps的数据核心数据点:那些Eps近邻数量大于MinPts的数据点密度直达:p是q的Eps近邻并且q是一个核心数据点,对象p从对象q出发...原创 2018-12-02 10:48:01 · 2037 阅读 · 0 评论 -
聚类算法评估
1、调整兰德指数(Adjusted Rand Index)兰德指数需要给定类别信息C,假设K是聚类结果,兰德指数表达式如下a为在C中为同一类且在K中也为同一类别的数据点对数b为在C中为同一类但在K中却隶属于不同类别的数据点对数c为在C中不在同一类但在K中为同一类别的数据点对数d为在C中不在同一类且在K中也不属于同一类别的数据点对数RI的取值范围为[0,1],值越大意味着聚类结果与真实...原创 2018-12-03 22:15:26 · 1563 阅读 · 0 评论 -
谱聚类(spectral clustering)
1. 谱聚类概述谱聚类是从图论中演化出来的算法,后来在聚类中得到了广泛的应用。它的主要思想是把所有的数据看做空间中的点,这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高,通过对所有数据点组成的图进行切图,让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高,从而达到聚类的目的。乍一看,这个算法原理的确简单,但是要完全理解这个算法...转载 2018-12-04 21:28:26 · 2206 阅读 · 0 评论 -
Affinity Propagation Clustering
AP聚类算法是基于数据点间的“信息传递"的一种聚类算法。AP算法不需要在运行算法之前确定聚类的个数。AP算法寻找数据集合中实际存在的点为聚类中心点,作为每类的代表。基本概念相似性矩阵S(similarity):使得s(i,j)>s(i,k)当且仅当xi与xj的相似性程度要大于其与xk的相似性,s(i,j)使用负的欧式距离,相似矩阵的定义方式可以参考我的另一篇文章:谱聚类吸引信息矩阵R(...原创 2018-12-05 21:07:06 · 2051 阅读 · 0 评论 -
Mean Shift 聚类
算法原理Mean shift 算法是基于核密度估计的爬山算法,可用于聚类、图像分割等。样本点集:上图中的实心点,n个样本点yi,i=1,2,…,n区域圆心:蓝色空心圆x感兴趣区域Sh:蓝色圆形区域,以x为圆心,h为半径的圆形内部。表达式为Mean Shift向量:从蓝色空心圆到黄色空心圆的偏移向量,表达式为三维高斯核概率密度分布如下图所示高斯核密度分布等高线图如下图所示M...原创 2018-12-08 13:15:42 · 362 阅读 · 0 评论 -
层次聚类(Hierarchical Clustering)
1、 层次聚类算法概述层次聚类算法通过将数据组织成若干组并形成一个相应的树状图来进行聚类, 它又可以分为两类, 即自底向上的聚合层次聚类和自顶向下的分解层次聚类。聚合聚类的策略是先将每个对象各自作为一个原子聚类, 然后对这些原子聚类逐层进行聚合, 直至满足一定的终止条件;后者则与前者相反, 它先将所有的对象都看成一个聚类, 然后将其不断分解直至满足终止条件。对于聚合聚类算法来讲, 根据度量两个...原创 2018-12-08 14:40:28 · 6335 阅读 · 0 评论 -
概率密度估计方法-核密度估计和高斯混合分布
1、概率密度估计方法概率密度估计方法用于估计一组数据集的概率密度分布,分为参数估计方法和非参数估计方法。参数估计方法假定样本集符合某一概率分布,然后根据样本集拟合该分布中的参数,例如:似然估计,混合高斯等,由于参数估计方法中需要加入主观的先验知识,往往很难拟合出与真实分布的模型;非参数估计法非参数估计并不加入任何先验知识,而是根据数据本身的特点、性质来拟合分布,这样能比参数估计方法得出更...原创 2018-12-09 10:17:12 · 17919 阅读 · 2 评论 -
聚类算法概述
聚类是一种常见的数据分析工具, 其目的是把大量数据点的集合分成若干类, 使得每个类中的数据之间最大程度地相似, 而不同类中的数据最大程度地不同。聚类在数据挖掘、数据管理(数据索引、检索)领域有着广泛的应用。聚类的种类如下图所示。1、 层次聚类算法聚合聚类的策略是先将每个对象各自作为一个原子聚类, 然后对这些原子聚类逐层进行聚合, 直至满足一定的终止条件。分解聚类与聚合聚类相反。2、 分割聚类...原创 2018-11-30 21:29:40 · 1948 阅读 · 0 评论