Weka算法Classifier-tree-J48源码分析（四）总结

最新推荐文章于 2024-12-29 06:00:00 发布

原创

最新推荐文章于 2024-12-29 06:00:00 发布 · 9k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #源码 #Weka #机器学习 #分类器

一、ClassifyInstance

首先先说一下构造好的分类树是如何对一个新的Instance进行区分。

直观上，会对树进行一个检索，从根节点根据属性的不同，最终走到叶子节点，得到具体的分类。

但Weka在实现上，是遍历了这个Instance属于不同的class的可能性，并从中选出了一个最大的，代码如下：

  public double classifyInstance(Instance instance) 
    throws Exception {

    double maxProb = -1;
    double currentProb;
    int maxIndex = 0;
    int j;

    for (j = 0; j < instance.numClasses(); j++) {
      currentProb = getProbs(j, instance, 1);
      if (Utils.gr(currentProb,maxProb)) {
	maxIndex = j;
	maxProb = currentProb;
      }
    }

    return (double)maxIndex;
  }

而getProbs函数关键代码如下：

    if (m_isLeaf) {
      return weight * localModel().classProb(clas

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ROger__Wong

关注关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Weka算法Classifier-tree-J48源码分析（二）ClassifierTree

锐之锋芒

09-07

6007

Weka算法Classifier-tree-J48源码分析（二）ClassifierTree

机器学习工具Weka 使用已知进行实时预测

mach_learn的专栏

10-17

5613

Weka预测一般使用classifyInstance，或者

1 条评论您还未登录，请先登录后发表或查看评论

weka 中j48源码解析

06-24

详细讲述了weka中j48源码解析，详细，值得学习

Weka开发－J48源代码介绍

licj_0721的专栏

03-10

2396

这次介绍一下J48的源码，分析J48的源码似乎真还是有用的，同学改造J48写过VFDT，我自己用J48进行特征选择（当然很失败）。 J48的buildClassfier函数： publicvoid buildClassifier(Instances instances) throws Exception { ModelSelection modSelection; if (m_binarySplits)

Weka算法Classifier-tree-J48源代码分析（一个）基本数据结构和算法

weixin_34273481的博客

08-14

452

大约一年，我没有照顾的博客，再次拿起笔不知从何写上，想来想去手从最近使用Weka要正确书写。 Weka为一个Java基础上的机器学习工具。上手简单，并提供图形化界面。提供如分类、聚类、频繁项挖掘等工具。本篇文章主要写一下分类器算法中的J48算法及事实上现。一、算法 J48是基于C4.5实现的决策树算法。对于C4.5算法相关资料太多了。笔者在这里转载一部分（来源：ht...

Weka算法Classifier-tree-J48源码分析（一）算法和基本数据结构

热门推荐

锐之锋芒

09-01

2万+

Weka分类树J48源码解析

Weka算法Classifier-trees-RandomTree源码分析

锐之锋芒

09-14

7756

一、RandomTree算法

Weka算法Classifier-trees-REPTree源码分析（一）

锐之锋芒

09-21

8058

Weka算法Classifier-trees-REPTree源码分析（一）

Weka算法Classifier-tree-J48源码分析（三）ModelSelection

锐之锋芒

09-07

6177

ModelSelection主要是用于选择合适的列对数据集进行分割，结合上一篇J48的主流程，发现用到的ModelSelection有 C45ModelSelection以及BinC45ModelSelection，先来分析C45ModelSelection。一、C45ModelSelection 首先作为一个ModelSelection接口，实现的主要方法有两个，分别是select

Weka分析结果参数解释

The Best or Nothing!

01-17

2065

Kappa Statistic 假设有两个相互独立的人分别将N个物品分成C个相互独立的类别,如果双方结果完全一致则K值为1,反之K值为0;Mean Absolute Error 是N次实验绝对误差的均值.绝对误差就是预测值与实际值之差的绝对值.比如某实例的预测值就是它的正确分类标签,而实际值就是classifier指定给它的分类标签...Root Mean Squared Error 即均方...

WekaTree:使用Weka的库对ID3和J48算法进行修改

05-05

威卡树使用Weka的库对ID3和J48算法进行修改

java分类算法代码,分类算法java代码分析

weixin_32460203的博客

03-15

471

分类算法java代码分析 Weak.classifiers 包中含有用于分类和数值预测的大部分算法的实现。这个包中最重要的是类是 Classifier，它定义了任何用于分类或数值预测的学习方案的通用结构。Classifier 含有三个方法，buildClassfier(),classifyInstance(),distributionForInstance().学习算法用 Classifier 的...

weka中数据预测，方法回归，参数等学习总结

luoxia0805的专栏

01-15

5032

转自网易博客http://nanjiguilai.blog.163.com/blog/static/114800242201322033836158/ 1.线性回归（LinearRegression） 1.1原理在统计学中，线性回归是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有

单例模式

不知名的博客

12-07

173

java中单例模式是一种常见的设计模式，单例模式的写法有好几种，这里主要介绍三种：懒汉式单例、饿汉式单例、登记式单例。　　单例模式有以下特点：　　1、单例类只能有一个实例。　　2、单例类必须自己创建自己的唯一实例。　　3、单例类必须给所有其他对象提供这一实例。

基本算法——分类

weixin_55987175的博客

12-29

1484

基本算法——分类

weka学习(2)——Classifier（类别）

longyi_java的专栏

03-15

5837

参考：http://quweiprotoss.blog.163.com/blog/static/40882883200810287352690/ public class ClassifierTest { private Instances m_instances = null; public void getFileInstances(String fileName)

【weka】决策树C4.5

bryant_meng

03-08

1万+

参考 C4.5算法详解（非常仔细）用 WEKA 进行数据挖掘，第 2 部分 weka算法参数整理文章目录1 算法原理1.1 计算类别信息熵1.2 计算每个属性的信息熵1.3 计算信息增益1.4 计算属性分裂信息度量1.5 计算信息增益率2 weka上的实现2.1 WEKA 数据集2.2 在 WEKA 内进行分类 1 算法原理首先，C4.5是决策树算法的一种。决策树算法作为一种分类算法，...

Weka一些基础内容

Wayne's Road to Rome!

06-02

4417

无意间在网上看到了：http://weka.wiki.sourceforge.net/Use+Weka+in+your+Java+code，相对我写的代码，它的当然更有权威性。翻译完了，第一次翻译，术语的汉语很多不清楚。还没有校对，有什么错误请告诉我。 你可能要用的最常用的组件(components)是： l Instances 你的数据 l Filter 对数据的预处理 l Classifiers/Clusterer 被建立在预处理的数据上，分类/

机器学习：weka中添加自己的分类和聚类算法

weixin_33796177的博客

04-15

445

　　不管是实验室研究机器学习算法或是公司研发，都有需要自己改进算法的时候，下面就说说怎么在weka里增加改进的机器学习算法。　　一添加分类算法的流程　　1 编写的分类器必须继承 Classifier或是Classifier的子类；下面用比较简单的zeroR举例说明；　　2 复写接口 buildClassifier，其是主要的方法之一，功能是构造分类器，训练模型；　　3 复写接口 ...

weka如何分析超大数据集

最新发布

11-04

WEKA（Waikato Environment for Knowledge Analysis）是一款广泛用于数据挖掘任务的开源软件。当处理超大数据集时，可采用以下方法： ### 流式学习 WEKA支持流式学习算法，这些算法可以一次处理一个或一批数据实例，而不是将整个数据集加载到内存中。例如，使用 Hoeffding 树（HoeffdingTree）等增量式分类器，它们可以在数据不断流入时进行实时学习和分类。以下是使用 WEKA API 进行流式学习的简单示例代码： ```java import weka.classifiers.trees.HoeffdingTree; import weka.core.Instances; import weka.core.converters.ConverterUtils.DataSource; public class StreamingLearningExample { public static void main(String[] args) throws Exception { // 加载数据集 DataSource source = new DataSource("your_large_dataset.arff"); Instances data = source.getDataSet(); if (data.classIndex() == -1) { data.setClassIndex(data.numAttributes() - 1); } // 创建 Hoeffding 树分类器 HoeffdingTree tree = new HoeffdingTree(); // 进行流式学习 for (int i = 0; i < data.numInstances(); i++) { tree.updateClassifier(data.instance(i)); } // 可以进行预测等操作 } } ``` ### 数据采样如果数据集过大无法全部加载到内存中，可以对数据进行采样。WEKA 提供了多种采样方法，如随机采样（Random Sampling）、分层采样（Stratified Sampling）等。可以使用 `weka.filters.supervised.instance.Resample` 过滤器进行采样。以下是使用 Java 代码进行随机采样的示例： ```java import weka.core.Instances; import weka.core.converters.ConverterUtils.DataSource; import weka.filters.supervised.instance.Resample; public class DataSamplingExample { public static void main(String[] args) throws Exception { // 加载数据集 DataSource source = new DataSource("your_large_dataset.arff"); Instances data = source.getDataSet(); if (data.classIndex() == -1) { data.setClassIndex(data.numAttributes() - 1); } // 创建采样过滤器 Resample resample = new Resample(); resample.setSampleSizePercent(10); // 采样 10% 的数据 resample.setInputFormat(data); // 应用过滤器进行采样 Instances sampledData = weka.filters.Filter.useFilter(data, resample); // 可以对采样后的数据进行分析 } } ``` ### 分布式计算可以将 WEKA 与分布式计算框架（如 Apache Hadoop、Apache Spark）结合使用，以处理超大数据集。例如，使用 Spark-WEKA 集成，将数据分布在多个节点上进行并行处理。以下是一个简单的 Spark-WEKA 集成示例： ```python from pyspark import SparkContext from pyspark.sql import SparkSession from weka.core.converters import Loader from weka.classifiers import Classifier # 创建 Spark 上下文和会话 sc = SparkContext("local", "WEKA on Spark") spark = SparkSession.builder.appName("WEKA on Spark").getOrCreate() # 加载数据集 loader = Loader(classname="weka.core.converters.ArffLoader") data = loader.load_file("your_large_dataset.arff") data.class_is_last() # 创建 WEKA 分类器 classifier = Classifier(classname="weka.classifiers.trees.J48") # 将数据转换为 RDD 并进行分布式处理 rdd = sc.parallelize(data.to_instances().to_list()) # 可以进行分布式训练和预测等操作 # 停止 Spark 上下文 sc.stop() ``` ### 内存管理合理配置 WEKA 的内存使用，通过调整 Java 虚拟机（JVM）的堆内存大小来避免内存溢出。可以在启动 WEKA 时使用 `-Xmx` 参数指定最大堆内存大小，例如： ```sh java -Xmx4g -jar weka.jar ``` 上述代码将 WEKA 的最大堆内存设置为 4GB。