Weka算法Classifier-tree-J48源码分析（一）算法和基本数据结构

最新推荐文章于 2024-01-15 16:08:08 发布

原创

最新推荐文章于 2024-01-15 16:08:08 发布 · 2.2w 阅读

·

11

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#算法 #机器学习 #数据挖掘 #数据结构 #源码

本文介绍了Weka中的J48算法，它是基于C4.5的决策树算法。讨论了算法原理，包括信息增益、信息增益率，并解释了为何C4.5算法优于ID3。同时，概述了算法中涉及的主要数据结构，如Instances对象、Instance、Classifier接口等。

大概一年没打理博客了，重新拿起笔不知道该从哪里写起，想来想去就从最近手头用的Weka写起吧。

Weka为一个Java基础上的机器学习工具，上手简单，并提供图形化界面，提供如分类、聚类、频繁项挖掘等工具，本篇文章主要写一下分类器算法中的J48算法及其实现。

一、算法

J48是基于C4.5实现的决策树算法，对于C4.5算法相关资料太多了，笔者在这里转载一部分（来源：http://blog.youkuaiyun.com/zjd950131/article/details/8027081）

C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习：给定一个数据集，其中的每一个元组都能用一组属性值来描述，每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习，找到一个从属性值到类别的映射关系，并且这个映射能用于对新的类别未知的实体进行分类。

C4.5由J.Ross Quinlan在ID3的基础上提出的。ID3算法用来构造决策树。决策树是一种类似流程图的树结构，其中每个内部节点（非树叶节点）表示在一个属性上的测试，每个分枝代表一个测试输出，而每个树叶节点存放一个类标号。一旦建立好了决策树，对于一个未给定类标号的元组，跟踪一条有根节点到叶节点的路径，该叶节点就存放着该元组的预测。决策树的优势在于不需要任何领域知识或参数设置，适合于探测性的知识发现。

从ID3算法中衍生出了C4.5和CART两种算法，这两种算法在数据挖掘中都非常重要。下图就是一棵典型的C4.5算法对数据集产生的决策树。

数据集如图1所示，它表示的是天气情况与去不去打高尔夫球之间的关系。

图1 数据集

最低0.47元/天解锁文章

评论 3

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。