
数据挖掘
文章平均质量分 69
yujunbeta
这个作者很懒,什么都没留下…
展开
-
R语言多元分析系列
不知道什么时候收集到的资料了,今天整理资料时发现了他,拿出来供大家参考。R语言多元分析系列之一:主成分分析 主成分分析(principal components analysis, PCA)是一种分析、简化数据集的技术。它把原始数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类转载 2013-10-22 23:20:54 · 4696 阅读 · 0 评论 -
R语言与机器学习学习笔记(分类算法)(5)神经网络
算法五:神经网络(优化算法) 人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。现代神经网络是一种非线性统计性数据建模工具,常用来对输入和输出间复杂的关系进行建模,或用来探索数据的模式。 人工神经网络从以下四原创 2013-12-13 00:32:02 · 29968 阅读 · 12 评论 -
数据科学学习笔记(use R)(3)
数据的导入 笔记的第一章:数据的导入已上传至github,欢迎访问以及对笔记不完善的地方提出修改完善意见。笔记主要内容:从网上获取数据读入本地数据读入Excel文件读入XML读入JSON数据连接SQL笔记链接:https://github.com/yujunbeta/data-science_studynote/blob/master/ch1原创 2014-08-15 18:43:36 · 2674 阅读 · 1 评论 -
数据科学学习笔记(use R)(2)
笔记的第一章:数据的导入以上传至github原创 2014-08-13 02:26:17 · 2116 阅读 · 0 评论 -
数据科学学习笔记(use R)(1)
写在前面的废话很久没有更新了bo原创 2014-08-08 18:02:44 · 3371 阅读 · 0 评论 -
R语言与机器学习学习笔记(分类算法)(1)K-近邻算法
前言 最近在学习数据挖掘,对数据挖掘中的算法比较感兴趣,打算整理分享一下学习情况,顺便利用R来实现一下数据挖掘算法。 数据挖掘里我打算整理的内容有:分类,聚类分析,关联分析,异常检测四大部分。其中分类算法主要介绍:K-近邻算法,决策树算法,朴素贝叶斯算法,支持向量机,神经网络,logistic回归。 这篇文章是我博客数据挖掘系列的第一篇文章,介绍分类算法中最基本的原创 2013-11-09 16:59:50 · 30717 阅读 · 12 评论 -
R语言与机器学习中的回归方法学习笔记
机器学习中的一些方法如决策树,随机森林,SVM,神经网络由于对数据没有分布的假定等普通线性回归模型的一些约束,预测效果也比较不错,交叉验证结果也能被接受。下面以R中lars包包含数据集diabetes为例说明机器学习中的回归方法。一、数据集及交叉验证办法描述 Diabetes数据集包含在R的lars包中,数据分为x,y,x2三个部分,因变量为y,数据是关于糖尿病的血液化验原创 2013-10-12 11:18:39 · 18748 阅读 · 1 评论 -
R语言与Markov Chain Monte Carlo(MCMC)方法学习笔记(1)
蒙特卡洛方法被誉为20世纪最伟大的十大算法之一。它由美国拉斯阿莫斯国家实验室的三位科学家John von Neumann, Stan Ulam 和 Nick Metropolis于1946年提出。 蒙特卡洛算法之所以那么有名,我的理解就是它利用随机模拟给出了一个十分普遍的求解许多问题近似解的办法。一个十分形象的例子是:在广场上画一个边长一米的正方形,在正方形内部随意用粉笔画一个不规原创 2014-03-16 00:34:29 · 39414 阅读 · 19 评论 -
R语言与分类算法的绩效评估
关于分类算法我们之前也讨论过了KNN、决策树、naivebayes、SVM、ANN、logistic回归。关于这么多的分类算法,我们自然需要考虑谁的表现更加的优秀。 既然要对分类算法进行评价,那么我们自然得有评价依据。到目前为止,我们讨论分类的有效性都是基于分类成功率来说的,但是这个指标科学吗?我们不妨考虑这么一个事实:一个样本集合里有95个正例,5个反例,分类器C1利用似然的原创 2014-01-11 15:43:26 · 17652 阅读 · 9 评论 -
R语言与机器学习学习笔记(分类算法)(6)logistic回归
写在前面的废话2014,又到了新的一年,首先祝大家新年快乐,也感谢那些关注我的博客的人。现在想想数据挖掘课程都是去年的事了,一直预告着,盘算着年内完工的分类算法也拖了一年了。本来打算去年就完成分类算法,如果有人看的话也顺带提提关联分析,聚类神马的,可是,。借着新年新气象的借口来补完这一系列的文章,可是,这明明就是在发。尽管这个是预告里的最后一篇,但是我也没打算把这个分类原创 2014-01-06 20:56:42 · 31836 阅读 · 2 评论 -
R语言与机器学习学习笔记(分类算法)(2)决策树算法
算法二:决策树算法 首先,我们来谈谈什么是决策树。我们还是以鸢尾花为例子来说明这个问题。 观察上图,我们判决鸢尾花的思考过程可以这么来描述:花瓣的长度小于2.4cm的是setosa(图中绿色的分类),长度大于1cm的呢?我们通过宽度来判别,宽度小于1.8cm的是versicolor(图中红色的分类),其余的就是virginica(图中黑色的分类)原创 2013-11-10 16:34:06 · 27652 阅读 · 1 评论 -
R语言与机器学习学习笔记(分类算法)(4)支持向量机
算法四:支持向量机 说到支持向量机,必须要提到july大神的《支持向量机通俗导论》,个人感觉再怎么写也不可能写得比他更好的了。这也正如青莲居士见到崔颢的黄鹤楼后也只能叹“此处有景道不得”。不过我还是打算写写SVM的基本想法与libSVM中R的接口。一、SVM的想法 回到我们最开始讨论的KNN算法,它占用的内存十分的大,而且需要的运算量也非常大。那么我们有没有可能原创 2013-11-29 13:26:48 · 23780 阅读 · 2 评论 -
R语言与机器学习学习笔记(分类算法)(3)朴素贝叶斯算法
算法三:朴素贝叶斯算法 前两个算法都被要求做出一个艰难的决定,给出数据所属分类的明确答案,但往往因为分类特征统计不足,或者分类特征选择有误导致了错误的分类结果,哪怕是训练集也有可能出现不能正确分类的情形。这时,前两种方法都如同现实生活一样是用“少数服从多数”的办法来做出决策。正如帕斯卡指出的:“少数服从多数未必是因为多数人更正义,而是多数人更加强力”,所以为了保证“少数人的原创 2013-11-16 13:29:40 · 24375 阅读 · 20 评论