
数据分析
zhyoulun
ha..ha..
展开
-
频繁模式挖掘apriori算法介绍及Java实现
频繁模式是频繁地出现在数据集中的模式(如项集、子序列或者子结构)。例如,频繁地同时出现在交易数据集中的商品(如牛奶和面包)的集合是频繁项集。原创 2014-12-17 11:27:48 · 15665 阅读 · 10 评论 -
决策树归纳(ID3属性选择度量)Java实现
ID3使用信息增益作为属性选择度量。该度量基于香农在研究消息的值或”信息内容“的信息论方面的先驱工作。该结点N代表或存放分区D的元组。选择具有最高信息增益的属性作为结点N的分裂属性。该属性使结果分区中对元祖分类所需要的信息量最小,并反映这些分区中的最小随机性或”不纯性“。这种方法使得对一个对象分类所需要的期望测试数目最小,并确保找到一颗简单的(但不必是最简单的)树。原创 2014-12-31 10:31:30 · 6962 阅读 · 3 评论 -
决策树归纳一般框架(ID3,C4.5,CART)
构建决策树的目的是对已有的数据进行分类,得到一个树状的分类规则,然后就可以拿这个规则对未知的数据进行分类预测。决策树归纳是从有类标号的训练元祖中学习决策树。决策树是一种类似于流程图的树结构,其中每个内部节点(非树叶结点)表示一个属性上的测试,每个分支代表该测试上的一个输出,而每个树叶结点(或终端结点)存放一个类标号。树的最顶层结点是根结点。一个典型的决策树如下图所示,原创 2014-12-31 10:02:19 · 6418 阅读 · 0 评论