
数据挖掘
文章平均质量分 74
Happy__Day
这个作者很懒,什么都没留下…
展开
-
数据挖掘总结之牛人篇
以下是咱经常去的数据挖掘牛人的网站,吸收了很多精华,也开阔了自己的思路。很感谢他们分享的思想,很是值得学习。韩家炜http://www.cs.uiuc.edu/~hanj/著名数据挖掘书籍,《数据挖掘概念和技术》作者,在DM界久负盛名。他的个人主页里面有很多他的papers,都非常经典;还有他所教授的课程,可以下载课件学习。Jian Pei...原创 2013-04-07 19:26:23 · 280 阅读 · 0 评论 -
Weka 开发[1]-Instances类
开始介绍Weka,先google一下,把Weka软件下载下来,安装完成之后,在Weka的安装目录中有一个weka.jar的包。 把包添加到工程中后,就可以调用weka中的函数了。 再介绍一点weka的基本知识,在weka的目录下,有一个data的文件夹,里面存放的是一些数据集,以第一个数据集contact-lenses.arff为例,用EditPl...原创 2013-04-08 11:48:43 · 509 阅读 · 0 评论 -
Weka开发[2]-分类器类
这次介绍如何利用weka里的类对数据集进行分类,要对数据集进行分类,第一步要指定数据集中哪一列做为类别,如果这一步忘记了(事实上经常会忘记)会出现“Class index is negative (not set)!”这个错误,设置某一列为类别用Instances类的成员方法setClassIndex,要设置最后一列为类别则可以用Instances类的numAttributes()成员...原创 2013-04-15 10:27:43 · 411 阅读 · 0 评论 -
Weka开发[3]-Evaluation类
上一次最后的结果就是一个分类的值,可能让大家大失所望,这一次会给大家一个比较完美的答案,这就是Evaluation类,这次只讲一下最简单的用法,首先初始化一个Evaluation对象,Evaluation类没有无参的构造函数,一般用Instances对象作为构造函数的参数。 如果没有分开训练集和测试集,可以使用Cross Validation方法,Evaluation中...原创 2013-04-15 10:32:11 · 326 阅读 · 0 评论 -
Weka开发[4]-特征选择
特征选择,理论上和实际上理论上和实际上使用特征选择之后进行分类比不进行特征选择的正确率都差,那么特征选择的意义又何在呢?与一位网友讨论的结果是:有些特征的提取可没那么容易,也会带来计算效率问题。如果不进行特征选择直接进行分类的话计算效率有可能不能接受,所以可以事先使用部分数据进行特征选择。那么显然我们要权衡的就是:特征选择带来的正确率下降和不选择有可能带来的效率问题哪个更不能被接受。...原创 2013-04-15 11:22:54 · 679 阅读 · 0 评论 -
Weka开发[5]-参数设置
这一次介绍的非常简单,会用传命令行参数的人就不用浪费时间看这一篇了,这一篇介绍weka中一些类参数传递的问题。 首先要传递参数当然要知道参数有哪些,有什么作用,要知道这些,建议用Weka软件就好了,在源码中看也不是不可以,但请记住简单的就是最好的(Occam’s Razor)。以下的图就是打开的以J48为例的界面(不知道怎么打开以下界面的,回家面壁思过),对话框里当然...原创 2013-04-15 11:53:10 · 987 阅读 · 0 评论 -
Weka开发[6]-LibSVM
首先要提的是LibSVM是一个库,Lib很明显是library的缩写,有些人不知道怎么会认为它是一种算法。它是由中国台湾的,记住是中国的台湾(⊙o⊙)…,Chih-Chung Chang和Chih-Jen Lin等人开发的,他们用多种语言实现写了LibSVM。 我把这一篇放到Weka开发里讲,主要讲它怎么和Weka结合,Weka中并不是没有SVM算法,Weka中有...原创 2013-04-15 14:16:43 · 446 阅读 · 0 评论 -
国内首套免费的《Nutch相关框架视频教程》(1-16)
转载杨尚川老师的一篇博客:http://yangshangchuan.iteye.com/blog/1837935 Nutch是一个Java开源项目,拥有近十年的历史,从一开始的搜索引擎演变为如今的网络爬虫。在Nutch的进化过程中,产生了Hadoop、Tika和Gora三个Java开源项目。如今这三个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大数据和云计...原创 2013-04-16 09:45:40 · 3430 阅读 · 0 评论 -
Weka开发[7]- ID3源码介绍
这次介绍一下Id3源码,这次用Weka的源码介绍一下。首先Id3是继承于Classifier的: public class Id3 extends ClassifierId3[]成员变量是递归保存树的变量,数据中每一个元素都是当前结点的子结点。 /** The node's successors. */ private Id3[] m_Success...原创 2013-04-16 20:37:58 · 337 阅读 · 0 评论