
数据挖掘
呼啦圈521
菜鸟程序猿
展开
-
k均值聚类
kmeans算法的速度很快,性能良好,几乎是应用最广泛的,它需要先指定聚类的个数k,然后根据k值来自动分出k个类别集合。 举个例子,某某教练在得到全队的数据后,想把这些球员自动分成不同的组别,你得问教练需要分成几个组,他回答你k个,ok可以开始了,在解决这个问题之前有必要详细了解自己需要达到的目的:根据教练给出的k值,呈现出k个组,每个组的队员是相似的。 首先,我们创建球员类原创 2013-09-25 14:16:55 · 707 阅读 · 0 评论 -
聚类算法之单链接算法java实现
聚类算法中基于链接的算法大致有三种:单链接算法(single link),平均链接算法(average link),最小生成数算法(minimum spanning tree)。现在实现单链接算法,其他算法以后再续吧。 单链接算法的过程是 首先生成各个元素的距离矩阵,根据距离和阀值的比对来控制生成的聚类个数,阀值越大,生成的聚类越少,直到同属一类。 下面例子实现转载 2013-09-25 14:27:58 · 1686 阅读 · 0 评论 -
PageRank算法java实现版本
PageRank算法是Google的核心搜索算法,在所有链接型文档搜索中有极大用处,而且在我们的各种关联系统中都有好的用法,比如专家评分系统,微博搜索/排名,SNS系统等。 PageRank算法的依据或思想: 1,被重要的网页链接的越多(外链) ,此网页就越重要 2,此网页对外的链接越少越重要 这两个依据不能是独立的,是需要一起考虑的。但是问题来了,转载 2013-09-25 14:29:37 · 1547 阅读 · 0 评论 -
关联分析-Apriori算法Java实现 支持度+置信度(1)
apriori算法是最基本的发现频繁项集的算法,它的名字也体现了它的思想——先验,采用逐层搜索迭代的方法,挖掘任何可能的项集,k项集用于挖掘k+1项集。先验性质频繁项集的所有非空子集也一定是频繁的该性质体现了项集挖掘中的反单调性,如果k项集不是频繁的,那么k+1项集一定也不是。基于这一点,算法的基本思想为:step 1:连接 为了搜索k项集,将k-1项转载 2013-09-25 15:00:17 · 3608 阅读 · 0 评论 -
关联分析-Apriori算法Java实现 支持度+置信度(2)
=========补充了关联规则的生成======== 比想象的要麻烦一点关联规则可以是双向的,confidence(A-->B)=P(A|B)=support(A&B)/support(A)所以在计算k项集的关联规则时,其分母都是k项集的支持度,分子为k-1项集的支持度,以及对应1项集的支持度001/**转载 2013-09-25 15:03:34 · 2897 阅读 · 0 评论 -
聚类算法之MST算法 java实现版本
在介绍最小生成树算法(MST)之前,简单说一下平均链接算法(average-link)的实现过程,平均链接聚类算法和单链接类似,多了计算聚类之间距离矩阵的步骤 实现步骤如下: 1,将元素各成一组,把这些组放入容器H2,循环元素距离数组,根据两层下标得到将要比较的两个元素A,B3,在H中分别查找含有A,B的组AH,BH。假如AH不等于BH(也就是A,B不同组),原创 2013-09-25 14:24:39 · 962 阅读 · 0 评论 -
贝叶斯文本分类
昨天实现了一个基于贝叶斯定理的的文本分类,贝叶斯定理假设特征属性(在文本中就是词汇)对待分类项的影响都是独立的,道理比较简单,在中文分类系统中,分类的准确性与分词系统的好坏有很大的关系,这段代码也是试验不同分词系统才顺手写的一个。 试验数据用的sogou实验室的文本分类样本,一共分为9个类别,每个类别文件夹下大约有2000篇文章。由于文本数据量确实较大,所以得想办法让每次训练的结果都能转载 2013-09-25 14:27:22 · 1000 阅读 · 0 评论 -
FP-Tree算法的实现
在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪(prune)数据集的方法以减少I/O开支,韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。支持度和置信度严格地说Apriori和FP-Tree都是寻找频繁项集的算法,频繁项集就是所谓的“支持度”比较高的项集,下面解释一下支持度和置信度的概念。设事务数据库为:转载 2013-09-25 15:07:55 · 1091 阅读 · 0 评论 -
k均值聚类
1》什么是K-means算法step1 从数据中随机抽取K个点作为初始聚类的中心。step2 计算数据中所有的点到这K个点的距离,将点归到离其最近的聚类里。step3 调整聚类中心。step4 重复step2,直到误差小于阈值或者聚类中心及聚类成员不在改变。2》java实现 Point.javapackage cn.edu.shu.kmeans;转载 2013-09-25 18:07:39 · 731 阅读 · 0 评论