
聚类分析
聚类分析
非同_寻常
我们从不生产代码我们只做代码的搬运工
展开
-
聚类算法综述(3)
原文地址:聚类算法综述(3)作者:hyman引用请注明出处:http://blog.sina.com.cn/s/blog_4c2cb83f0100ct0l.html 我们知道对象之间的相异度是基于对象间的距离来计算的。最常用的度量方法是欧几里德距离,其形式如下:d(i,j) =(|xi1-xj1|2+|xi2-xj2|2+……+|xip-xjp|2)1/2这里i=(xi1,xi转载 2013-10-10 12:57:00 · 972 阅读 · 0 评论 -
聚类算法综述(6)
原文地址:聚类算法综述(6)作者:hyman3.1.3 基于密度的方法绝大多数划分方法基于对象之间的距离进行聚类,这样的方法只能发现球状的类,而在发现任意形状的类上有困难。因此,出现了基于密度的聚类方法,其主要思想是:只要邻近区域的密度(对象或数据点的数目)超过某个阈值,就继续聚类。也就是说,对给定类中的每个数据点,在一个给定范围的区域内必须至少包含某个数目的点。这样的方法可以过滤“转载 2013-10-10 12:57:09 · 3151 阅读 · 0 评论 -
聚类算法总结 (转)
讲聚类算法,首先就理解几个聚类里面的专有词,让我们先回顾下这些关键词的定义.一个簇是一组数据对象的集合,在同一个簇中的对象彼此类似,而不同的簇中的对象彼此相异。将一组热处理或者抽象对象分组为类似对象组成的多个簇的过程被称为聚类。聚类分析有很广泛的应用,包括市场或客户模式识别,生物学研究,空间数据分析,web文档分类。聚类算法有很多:具体可以分为划分、层次、基于密度、基于网格、及基于模型等。原创 2013-10-10 12:57:26 · 909 阅读 · 0 评论 -
BIRCH 大规模数据聚类算法(转)
BIRCH 大规模数据聚类算法BIRCH (Balanced Iterative Reducing andClustering using Hierarchies)是一种在特别大规模的数据集上进行分层聚类的非监督的数据挖掘算法。它能增量的,动态的对输入的多维度数据在给定有限的内存和时间条件的情况下进行高质量的聚类。大多数情况下,BIRCH只需要对数据进行一次遍历。同时,BIRCH被认为是原创 2013-10-10 12:57:21 · 3596 阅读 · 0 评论 -
聚类算法综述(7)
原文地址:聚类算法综述(7)作者:hyman3.2.2 基于粒度的聚类方法从表面上看,聚类和分类有很大差异———聚类是无导师的学习,而分类是有导师的学习。具体说来,聚类的目的是发现样本点之间最本质的抱团性质的一种客观反映;分类需要一个训练样本集,由领域专家指明,而分类的这种先验知识却常常是主观的。如果从信息粒度的角度来看,就会发现聚类和分类的相通之处: 聚类操作实际上是在一个统一粒度下进行转载 2013-10-10 12:57:11 · 3109 阅读 · 0 评论 -
聚类算法综述(5)
原文地址:聚类算法综述(5)作者:hyman图3-1聚类方法的分类示意图3.1 传统聚类算法3.1.1 层次方法层次法对给定的数据对象集合进行层次似的分解。按层次分解的形成方式,层次法可分为凝聚和分裂两大类。凝聚的方法,也称为自底向上的方法,一开始将每个对象作为单独的一个类,然后相继地合并相近的类,直到所有的类合并为一个(层次的最上层),或者达到一个终止条件为止。分裂的方转载 2013-10-10 12:57:07 · 1153 阅读 · 0 评论 -
聚类算法综述(4)
原文地址:聚类算法综述(4)作者:hyman2.2.3 标称型、序数型和比例标度型变量(1)标称变量标称变量是二元变量的推广,具有多于两个的状态值。如,draw_color是一的标称变量,状态有很多:红色、黄色、绿色、棕色、黑色、白色……。标称变量之间的相异度可以用简单匹配方法来计算:d(i,j)=(p-m)/p这里m是匹配的数目,即对i和j取值相同的变量数目,而p是全转载 2013-10-10 12:57:04 · 1188 阅读 · 0 评论 -
聚类算法综述(2)
原文地址:聚类算法综述(2)作者:hyman(4)结果验证。一旦用聚类算法得到结果,就需要验证其正确性。(5)结果判定。在许多情况下,应用领域的专家必须用其他实验数据和分析判定聚类结果,最后做出正确的结论。聚类分析有很多种算法,每种算法都是优化了某一方面或某几方面的特征。聚类算法的优劣标准本身就是一个值得研究的问题,对于聚类的评价有不同的标准。现在通用的聚类算法都是从几个方面来衡量的,而没有转载 2013-10-10 12:56:58 · 1160 阅读 · 0 评论 -
聚类算法综述(1)
原文地址:聚类算法综述(1)作者:hyman这篇paper是boss在假期布置的任务,主要是对数据挖掘中聚类算法的整理综述,文章分为四部分:(1)聚类方法的概述(2)聚类方法的知识基础(3)聚类方法分类(4)主要的聚类算法:k-means/k-medoids/birch^^^^^ 引用请注明出处:http://blog.sina.com.cn/s/blog_4c2cb83f0100ct0l转载 2013-10-10 12:56:56 · 1095 阅读 · 0 评论 -
聚类算法综述(4)
原文地址:聚类算法综述(4)作者:hyman2.2.2二元变量二元变量只有0、1两个状态,0表示变量为空,1表示该变量存在。 对象j 10Sum对象i1qrq+r0sts+tSumq+sr+tp p=q+r+s+t转载 2013-10-10 12:57:02 · 887 阅读 · 0 评论 -
海量数据聚类算法综述 (转)
国内外研究现状:处理海量数据难处在于数据量过大,不可能一次性将所有的数据都放入内存,所以将会导致多次读取磁盘,这样严重影响聚类算法的性能。目前有三种比较流行的方法来解决这个问题。一是从数据集中选取合适的子集来进行聚类,从子集中找到每个簇的中心,然后将剩下的样本归入到离其最近的簇。但是很难确定选定的子集是否最能代表原数据集。二是采用其他占用内存较小的变量来代替原数据集中的多个样本,这样就有可能原创 2013-10-10 12:57:24 · 1755 阅读 · 0 评论