
数据挖掘
文章平均质量分 81
不仅仅是寻找
寻找机会
展开
-
决策树ID3算法
基本思想 1.选择一个属性放置在根节点,为每个可能的属性值产生一个分支 2.将样本划分成多个子集,一个子集对应于一个分支 3.在每个分支上递归地重复这个过程,仅使用真正到达这个分支的样本 4.如果在一个节点上的所有样本拥有相同的类别,即停止该部分树的扩展 ID3算法思想: (1) 初始化决策树T为只含一个树根(X,Q),其中X是全体样本集,Q为全体属性集。 (2) if原创 2013-06-07 13:46:24 · 882 阅读 · 0 评论 -
决策树C4.5
C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2) 在树构造过程中进行剪枝; 3) 能够完成对连续属性的离散化处理; 4) 能够对不完整数据进行处理。 C4.5算法优点:产生的分类规则易于理解,准确率较高。 缺点:在构造树的过程中,需要对数原创 2013-06-07 06:28:14 · 956 阅读 · 0 评论 -
决策树
飞原创 2013-07-31 18:03:19 · 198 阅读 · 1 评论 -
聚类
聚类分析算法原创 2013-07-31 22:39:42 · 441 阅读 · 0 评论 -
关联
Apriori算法是R.Agrawal和R.Srikant于1994年提出的为布尔关联规则挖掘频繁项集的原创性质算法。正如我们将看到的,算法的名字基于这样的事实:算法使用频繁项集性质的先验性质。Apriori使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描数据库,累积每个项的计数,并收集满足最小支持度的项,找出频繁1项集的集合。该集合记作L1。然后L1用于找频繁2项集的原创 2013-07-31 22:57:43 · 455 阅读 · 0 评论