
数据挖掘
文章平均质量分 77
毛葱头
这个作者很懒,什么都没留下…
展开
-
Weka开发 -OneR源代码介绍
<br /> OneR是一个很简单的算法,出自论文:Verysimpleclassificationrulesperformwellonmostcommonlyuseddatasets,由于论文的风格过于奔放,并且很长,所以我也就没怎么看。基本思想就是对每一个属性都建一个单层的分类器,对这些分类器进行比较,谁分类效果好就作为最终的分类器。<br /> 下面还是看buildClassifier的代码(删除了部分代码),首先判断是不是就一个属性(一个属性意味着只有一个类别特征),如果是原创 2011-03-10 17:44:00 · 6734 阅读 · 0 评论 -
Weka开发 -ZeroR源代码介绍(入门篇)
<br />首先提一下,ZeroR很多人以为是乱猜,实际是如果类别是离散值,就返回最有可能的类别,如果是连续值,则返回类别的平均值。<br /> 下面函数的前面两句话哪个分类器都有,就不说了。这个函数简单地让我不知道怎么讲了。m_Counts如果是离散(Nominal)的类别,就把它初始化为一个有类别数大小的一维数组,如果是类别是连续(Numeric)值,那就是一个值。<br /> 下面while循环,这种写法是枚举数据集中的每一个样本,如果是离散值,m_Counts相应的类别下标加转载 2011-03-10 17:46:00 · 2279 阅读 · 1 评论 -
Weka开发 -J48源代码介绍
<br />这次介绍一下J48的源码,分析J48的源码似乎真还是有用的,同学改造J48写过VFDT,我自己用J48进行特征选择(当然很失败)。<br />J48的buildClassfier函数:<br />publicvoid buildClassifier(Instances instances) throws Exception {<br /> ModelSelection modSelection;<br /> <br /> if (m_binarySplits)<br />转载 2011-03-10 17:50:00 · 2357 阅读 · 0 评论 -
Weka开发-- NBTree源码介绍
<br /> <br /> 我不多的读者之一发E-mail给我,说他没有看出NBTree和J48的区别是什么,当时我也没什么空,所以拖到今天才草草看了看。大概讲一下。<br /> <br /> <br /> 下面是J48中的buildClassifier代码:<br />publicvoid buildClassifier(Instances instances) throws Exception {<br /> <br /> ModelSelection modSelection转载 2011-03-10 17:57:00 · 1792 阅读 · 0 评论 -
Weka开发 —KMeans源码介绍
<br />以前介绍的都是分类的内容,这一次介绍聚类,以最简单的SimpleKMeans源码为例。<br /> 分类中训练一个分类器是用buildClassifier(),在聚类中学习一个Clusterer是用buildCluster()。分类中分类一个样本是用classifyInstance,而在聚类中是用clusterInstance。那我怎么知道这些的呢?(或者说:你怎么知道我是不是在骗你呢?)以ID3为例,你可以看出它继承自Classifier类,进入Classifier类,它有三个比较转载 2011-03-10 17:59:00 · 1121 阅读 · 0 评论 -
java搜索引擎工程师招聘
<br />任职要求(全职、工作地点:北京):<br />1、三年以上java开发经验<br />2、有网络爬虫、搜索引擎开发经验<br />3、了解lucene、Nutch、Heritrix、solr、hadoop、hive、hbase等开源工具<br />4、具有数据挖掘、自然语言处理、熟悉weka、sas、spss分析工具等方面经验者优先。<br />有意向且符合要求的人员请将简历发送至邮箱:hr_tech@harmonytech.com.cn<br />北京东方正通科技有限公司<br />公司网站:原创 2011-03-16 15:20:00 · 738 阅读 · 0 评论