聚类算法
tyh70537
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
层次聚类中用到的图论知识
图是在聚类分析中有多种用途的一种数学结构。 图是由两个集合构成,顶点的集合用VV表示,代表被聚类的对象,V={vi}V=\{v_i\}。边的集合用EE表示,代表点之间的相互关系,E={ei}E=\{e_i\}。这些点和边通过一个函数ff关联起来,ff将边映射到对应的点对上。因此图GG可以表示为一个三元组,G=(V,E,f)G=(V,E,f)。多重边和环若图G中,某个边e的两个端点相同,则称e是环,原创 2017-07-18 16:26:32 · 3405 阅读 · 0 评论 -
基于最小生成树的单连接算法
本文介绍基于最小生成树(MST)的单连接聚类算法,分为凝聚和分裂两种,都十分简单。(基于MST的单连接凝聚算法)step 1. 假设有n个待聚类的对象,把每个对象都当做一个独立的簇,画出 这n个点的完全图G(∞)G(\infty),根据G(∞)G(\infty)得到最小生成树,每条边的权重就是对象之间的距离,重复第二步和第三步直到只剩下一个簇。 step 2. 找出MST中权重最小的一条边(如果原创 2017-07-21 12:46:29 · 2268 阅读 · 0 评论 -
层次聚类
层次聚类的数学结构在给定一个需要聚类的对象的矩阵之后,我们可以计算相应的邻近度矩阵,邻近度矩阵是层次聚类方法的基础,邻近度矩阵中的元素可以是对象之间的相似度(similarity)或不相似度(dissimilarity)。一般我们都是使用的对象之间的距离(一种不相似度)来组成邻近度矩阵。而所有的层次聚类方法都可以看成是把一个邻近度矩阵转化为一系列具有嵌套结构的划分。首先通过定义来解释一下什么是一系列原创 2017-07-19 21:21:49 · 1984 阅读 · 0 评论 -
集成聚类之EAC方法
刚看完一篇集成聚类的文章: Combining Multiple Clusterings Using Evidence Accumulation(EAC) 做个简单的笔记,方便复习。和一般的集成聚类不同,EAC并不直接组合不同的划分,而是由这些不同的划分得到一个邻近度矩阵(proximity matrix),之后便可在这个邻近度矩阵上运用层次聚类中的单连接(single link)或平均连接(a原创 2017-08-13 20:04:19 · 7995 阅读 · 13 评论 -
单连接算法与全连接算法
这篇文章所提到的图论里面定义,参考我之前的文章http://blog.youkuaiyun.com/tyh70537/article/details/75309042定义这篇文章将详细介绍阈值图(threshold graph),单连接算法和全连接算法的一般步骤。 我前面已经提到过,单连接算法和全连接算法都是从一个邻近度矩阵(proximity matrix)开始。一般情况下,给定n个待聚类的对象,X={x1原创 2017-08-06 14:04:10 · 18360 阅读 · 3 评论 -
聚类有效性检验(Hubert'Γ )
问题的提出假设现在有N个样本需要聚类,根据某个聚类算法我们把这N个样本聚为K个簇,现在问题是怎么确定现在的聚类结果是有意义的,而不是仅仅通过随机得到的。下面我们将构造Hubert’Γ 统计量,通过假设检验的方法来解决这一问题。以下内容大部分出至Jain和Dubes的聚类教程《Algorithms for Clustering Data》。部分理解可能有误,欢迎指出错误。所需用到的定义在具体论述之前,原创 2017-08-06 14:09:54 · 8022 阅读 · 1 评论 -
一个确定初始聚类中心的更好方法
初始聚类中心的选择对k-means算法的效果有非常显著的影响,不合适的初始聚类中心可能导致: 1,算法收敛速度降低 2,更大的可能使聚类结果收敛到一个较差的局部最小值 3,某些簇最后是个空集(样本量较小时这种情况经常出现)经典的k-means算法的初始聚类中心是随机选取的,这种方式有两种不足: 1,某些初始聚类中心可能离群体太远,如下图 2,有的聚类中心可能相互之间隔得太近为了克服这些原创 2017-10-08 13:24:52 · 12833 阅读 · 0 评论 -
k-modes聚类算法介绍
为什么要用k-modes算法k-means算法是一种简单且实用的聚类算法,但是传统的k-means算法只适用于连续属性的数据集,而对于离散属性的数据集,计算簇的均值以及点之间的欧式距离就变得不合适了。k-modes作为k-means的一种扩展,适用于离散属性的数据集。k-modes算法介绍假设有N个样本,M个属性且全是离散的,簇的个数为k 步骤一:随机确定k个聚类中心C1,C2...CkC_1,C原创 2017-10-04 17:05:29 · 34290 阅读 · 8 评论 -
半监督K均值聚类python代码
说明:下面的半监督K-means的初始聚类中心的选择是根据有标签数据而定的,聚类个数=类别个数,初始聚类中心=各个类样本的均值。# -*- coding: utf-8 -*-import numpy as npdef distEclud(vecA, vecB): ''' 输入:向量A和B 输出:A和B间的欧式距离 ''' return np.sqr...原创 2018-05-28 16:14:14 · 9448 阅读 · 13 评论
分享