
数据挖掘学习笔记
文章平均质量分 84
vshadow
这个作者很懒,什么都没留下…
展开
-
数据挖掘工具Weka之数据格式ARFF及CSV文件格式转换
Weka介绍:Weka是一个用Java编写的数据挖掘工具,能够运行在各种平台上。它不仅提供了可以直接用于数据挖掘的软件,还提供了src代码,使用者可以修改源代码,进行二次开发。但是,由于其使用了Java虚拟机,导致其不适合处理大型数据,运行缓慢。处理超过一定大小数据,还会溢出heap size,使程序崩溃。但作为初学者,很适合通过处理一些小型数据集,以直观地了解各种数据挖掘方法。它还自带一些典原创 2012-11-23 10:31:14 · 24444 阅读 · 0 评论 -
数据挖掘十大经典算法学习之Adaboost自适应增强学习算法
定义The strong and weak learnability are equivalent.--Kearns and Valiant(1989)强分类器和弱分类器是相同的,多个弱分类器组合可以达到强分类器的效果。通过迭代生成一列分类器,每个分类器都依赖于之前的一个,之前分类器错分的样本被赋予更高的权重。训练数据集D为 {(x1,y1,w1),( x2,y2,w2),…,(原创 2012-11-26 22:07:51 · 8064 阅读 · 1 评论 -
数据挖掘十大经典算法学习之K均值(K-means)聚类算法
基本概念• 监督学习vs.无监督学习Ø 监督学习: 发现数据属性与类别属性之间的关联模式。 – 通过利用这些模式来预测未知数据实例的类别属性。 Ø 无监督学习: 没有类别属性. – 希望探索数据以发现其中的内在结构。无监督学习包括聚类、关联规则等。• K-均值聚类算法是最著名的划分聚类算法。Ø 设实例的集合D为{x1原创 2012-12-05 09:41:45 · 7584 阅读 · 1 评论 -
数据挖掘十大经典算法学习之Naive Bayes朴素贝叶斯
贝叶斯方法的提出:正概率问题:假如袋子里有M个黑球、N给白球,你伸手进去摸一个,摸出黑球的概率有多大?摸出白球的的概率有多大?解答:黑球概率P(A)=M/(M+N) ,白球概率P(B)=N/(M+N)。——(1)逆概率问题:事先不知道袋子里有多少个黑球、多少个白球,你怎样通过实验,预测黑白球的比例?解答:采用不放回地摸取,摸出k个球,其中m个黑球,n个白球,通过计算m、n占k的原创 2012-11-22 16:50:43 · 6707 阅读 · 7 评论 -
数据挖掘十大经典算法学习之C4.5决策树分类算法及信息熵相关
Definition决策树学习时应用最广的归纳推理算法之一。[1]它是一种逼近离散值函数的方法,对噪声数据有很好的健壮性且能够学习析取表达式。CLS, ID3,C4.5,CART均是决策树学习算法。[1]归纳学习成立存在一个基本假设:任一假设如果在足够大的训练样例集中很好地逼近目标函数,它也能在未见实例中很好地逼近目标函数。“泛化能力”决策树学习的归纳偏置是优先选择较小的树。决策树原创 2012-11-29 21:48:18 · 13864 阅读 · 2 评论 -
五款开源的数据挖掘软件
OrangeOrange 是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,基绑定了Python以进行脚本开发。它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。其由C++ 和 Python开发,它的图形库是由跨平台的Qt框架开发。RapidMinerRapi转载 2012-12-13 17:42:59 · 1414 阅读 · 0 评论