
数据挖掘
loverszhaokai
海到尽头天作岸,
山登绝顶我为峰。
展开
-
聚类算法之K-MEANS
K-means算法是一种基于样本间相似性度量的间接聚类方法。此算法以K为参数,把N个对象分为K个簇,以使簇内具有较高的相似度,而且簇间的相似度较低。相似度的计算根据一个簇中对象的平均值来进行。此算法的工作过程为:首先从N个数据对象任意选择K个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再转载 2011-06-18 13:51:00 · 665 阅读 · 0 评论 -
分类算法
分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强调客户细分。客户类别分析的功能也在于此,采用数据挖掘中的分类技术,可以将客户分成不同的类别,比如呼叫中心设计时可以分为:呼叫频繁的客户、偶然大量呼叫的客户、稳定呼叫的客户、其他,帮助呼叫中心寻找出这些不同种类客户之间的特征,这样的分类模型可以让用户了解不同行为类别客转载 2011-06-18 13:51:00 · 1187 阅读 · 0 评论 -
分类算法之决策树
决策树(Decision tree) 决策树是以实例为基础的归纳学习算法。 它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较,并根据不同的属性值从该结点向下分支,叶结点是要学习划分的类。从根到叶结点的一条路径就对应着一条合取规则,整个决策树就对应着一组析取表达式规则。1986年Quinlan提出了著名转载 2011-06-18 13:52:00 · 738 阅读 · 0 评论 -
关联规则分析
1.什么是关联规则 "尿布与啤酒"的故事大家都有听过,这里就不罗嗦了。 按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析转载 2011-06-18 13:52:00 · 2181 阅读 · 0 评论 -
聚类分析
什么是聚类?聚类,顾名思义就是把一组对象划分成若干类,并且每个类里面对象之间的相似度较高,不同类里面对象之间相似度较低或差异明显。与分类不同的是聚类不依靠给定的类别对对象进行划分。聚类算法的分类聚类分析算法很多,大体上可以分为下面5类:划分方法层次的方法基于密度的方法基于网格的方法基于模型的方法划分方法划分方法就是根据用户输入值K把给定对象分转载 2011-06-18 13:48:00 · 1292 阅读 · 0 评论 -
weka入门
1. 简介 WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。 WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。 如果想自己实现数据挖掘算法的话,转载 2011-05-04 14:52:00 · 556 阅读 · 0 评论