R语言
文章平均质量分 75
yujunbeta
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
R语言与点估计学习笔记(EM算法与Bootstrap法)
一、EM算法 EM算法是一种在观测到数据后,用迭代法估计未知参数的方法。可以证明EM算法得到的序列是稳定单调递增的。这种算法对于截尾数据或参数中有一些我们不感兴趣的参数时特别有效。 EM算法的步骤为: E-step(求期望):在给定y及theta=theta(i)的条件下,求关于完全数据对数似然关于潜在变量z的期望 M-step(求极值):求上原创 2012-10-13 12:56:39 · 14999 阅读 · 2 评论 -
R语言与抽样技术学习笔记(Randomize)
R语言与抽样技术学习笔记(Randomize,Jackknife,bootstrap)尽管二次抽样、重新抽样或者其他的对给定数据重新排序的方法并不能增加数据的信息,但是这些办法往往有助于我们提取信息。今天我们就来详细的讨论一下抽样技术在数据分析中的作用。主要包括随机化检验、Jackknife、bootstrap三个方面的内容。女士品茶实验与随机化检验首先我们还是来回顾一下fisher爵原创 2014-04-16 21:48:42 · 5305 阅读 · 4 评论 -
R语言与Markov Chain Monte Carlo(MCMC)方法学习笔记(1)
蒙特卡洛方法被誉为20世纪最伟大的十大算法之一。它由美国拉斯阿莫斯国家实验室的三位科学家John von Neumann, Stan Ulam 和 Nick Metropolis于1946年提出。 蒙特卡洛算法之所以那么有名,我的理解就是它利用随机模拟给出了一个十分普遍的求解许多问题近似解的办法。一个十分形象的例子是:在广场上画一个边长一米的正方形,在正方形内部随意用粉笔画一个不规原创 2014-03-16 00:34:29 · 39789 阅读 · 19 评论 -
R语言与分类算法的绩效评估
关于分类算法我们之前也讨论过了KNN、决策树、naivebayes、SVM、ANN、logistic回归。关于这么多的分类算法,我们自然需要考虑谁的表现更加的优秀。 既然要对分类算法进行评价,那么我们自然得有评价依据。到目前为止,我们讨论分类的有效性都是基于分类成功率来说的,但是这个指标科学吗?我们不妨考虑这么一个事实:一个样本集合里有95个正例,5个反例,分类器C1利用似然的原创 2014-01-11 15:43:26 · 17764 阅读 · 9 评论 -
R语言与机器学习学习笔记(分类算法)(6)logistic回归
写在前面的废话2014,又到了新的一年,首先祝大家新年快乐,也感谢那些关注我的博客的人。现在想想数据挖掘课程都是去年的事了,一直预告着,盘算着年内完工的分类算法也拖了一年了。本来打算去年就完成分类算法,如果有人看的话也顺带提提关联分析,聚类神马的,可是,。借着新年新气象的借口来补完这一系列的文章,可是,这明明就是在发。尽管这个是预告里的最后一篇,但是我也没打算把这个分类原创 2014-01-06 20:56:42 · 31991 阅读 · 2 评论 -
R语言与机器学习学习笔记(分类算法)(2)决策树算法
算法二:决策树算法 首先,我们来谈谈什么是决策树。我们还是以鸢尾花为例子来说明这个问题。 观察上图,我们判决鸢尾花的思考过程可以这么来描述:花瓣的长度小于2.4cm的是setosa(图中绿色的分类),长度大于1cm的呢?我们通过宽度来判别,宽度小于1.8cm的是versicolor(图中红色的分类),其余的就是virginica(图中黑色的分类)原创 2013-11-10 16:34:06 · 27773 阅读 · 1 评论 -
R语言与机器学习学习笔记(分类算法)(4)支持向量机
算法四:支持向量机 说到支持向量机,必须要提到july大神的《支持向量机通俗导论》,个人感觉再怎么写也不可能写得比他更好的了。这也正如青莲居士见到崔颢的黄鹤楼后也只能叹“此处有景道不得”。不过我还是打算写写SVM的基本想法与libSVM中R的接口。一、SVM的想法 回到我们最开始讨论的KNN算法,它占用的内存十分的大,而且需要的运算量也非常大。那么我们有没有可能原创 2013-11-29 13:26:48 · 23882 阅读 · 2 评论 -
R语言的常用函数速查
原帖地址:http://bbs.pinggu.org/thread-2264811-1-1.html基本一、数据管理vector:向量 numeric:数值型向量 logical:逻辑型向量character;字符型向量 list:列表 data.frame:数据框c:连接为向量或列表 length:求长度 subset:求子集seq,from:to,sequence:等差序列re转载 2013-12-07 19:35:29 · 9118 阅读 · 0 评论 -
时间序列作业
第四次上机实验:分析实际数据(平稳)作业内容请访问:#2--11prod=c(47, 64, 23, 71, 38, 64, 55, 41, 59, 48,71, 35, 57, 40, 58, 44, 80, 55, 37, 74,51, 57, 50, 60, 45, 57, 50, 45, 25, 59,50, 71, 56, 74, 50, 58, 45, 54, 36原创 2013-01-04 17:27:03 · 2505 阅读 · 0 评论 -
R语言多元分析系列
不知道什么时候收集到的资料了,今天整理资料时发现了他,拿出来供大家参考。R语言多元分析系列之一:主成分分析 主成分分析(principal components analysis, PCA)是一种分析、简化数据集的技术。它把原始数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类转载 2013-10-22 23:20:54 · 4835 阅读 · 0 评论 -
根据Econometrics in R一书,将回归方法总结一下
文章出处:http://cos.name/cn/topic/3272/page/23、Cross Sectional Regression3.1 最小二乘法 有三种方式可以实现最小二乘法的简单线性回归,假设数据byu(1)lm(byu$salary ~ byu$age + byu$exper)(2)lm (salary ~ age + exper, data= b转载 2013-10-18 00:05:28 · 8572 阅读 · 0 评论 -
Study note on Applied Econometrics with R(1)
这是我根据Applied Econometrics with R(springer)一书中线性回归(第三章)有关内容整理成的学习笔记,对书中的一些代码进行了解读,也根据我学到的回归知识添加了部分内容。笔记中的例子凡是书上给出过输出结果的,在这里一律省略,没给出结果的,附上结果及函数解读。这个并不是书内容的翻译,与原书有一定的出入。Chapter 3:线性模型需要加载函数包: AER原创 2013-10-20 18:06:36 · 2731 阅读 · 3 评论 -
回归分析作业1
作业内容:1、重现《线性统计模型》(王松桂等)例3.1.32、模拟最小二乘法,并根据模拟结果得出估计系数与估计方差的一些结论,如无偏性等作业实现(仅供参考)#1y<-c(10.98,11.13,12.51,8.40,9.27,8.73,6.63,8.50,7.82,9.14,8.24,12.19,11.8,9.57,10.94,9.58,10.09,8.11,6.83,8.88原创 2013-04-22 23:31:57 · 2746 阅读 · 2 评论 -
R语言与抽样技术学习笔记(Jackknife)
R语言与抽样技术学习笔记(Randomize,Jackknife,bootstrap) 尽管二次抽样、重新抽样或者其他的对给定数据重新排序的方法并不能增加数据的信息,但是这些办法往往有助于我们提取信息。今天我们就来详细的讨论一下抽样技术在数据分析中的作用。主要包括随机化检验、Jackknife、bootstrap三个方面的内容。女士品茶实验与随机化检验 首先我们还是来回顾一下Fis原创 2014-04-19 22:22:19 · 14378 阅读 · 0 评论 -
R语言与抽样技术学习笔记(bootstrap)
R语言与抽样技术学习笔记(Randomize,Jackknife,bootstrap)Bootstrap方法 Bootstrap一词来源于西方神话故事“The adventures of Baron Munchausen”归结出的短语“to pull oneself up by one's bootstrap",意味着不靠外界力量,依靠自身提升性能。 Bootstrap的基原创 2014-04-19 22:43:25 · 78500 阅读 · 6 评论 -
R语言与机器学习学习笔记(分类算法)(3)朴素贝叶斯算法
算法三:朴素贝叶斯算法 前两个算法都被要求做出一个艰难的决定,给出数据所属分类的明确答案,但往往因为分类特征统计不足,或者分类特征选择有误导致了错误的分类结果,哪怕是训练集也有可能出现不能正确分类的情形。这时,前两种方法都如同现实生活一样是用“少数服从多数”的办法来做出决策。正如帕斯卡指出的:“少数服从多数未必是因为多数人更正义,而是多数人更加强力”,所以为了保证“少数人的原创 2013-11-16 13:29:40 · 24497 阅读 · 20 评论 -
R语言与函数估计学习笔记(核方法与局部多项式)
非参数方法用于函数估计的非参数方法大致上有三种:核方法、局部多项式方法、样条方法。非参的函数估计的优点在于稳健,对模型没有什么特定的假设,只是认为函数光滑,避免了模型选择带来的风险;但是,表达式复杂,难以解释,计算量大是非参的一个很大的毛病。所以说使用非参有风险,选择需谨慎。非参的想法很简单:函数在观测到的点取观测值的概率较大,用x附近的值通过加权平均的办法估计函数\( f(x) \)原创 2014-05-17 11:31:44 · 31163 阅读 · 13 评论 -
R语言与机器学习学习笔记(分类算法)(5)神经网络
算法五:神经网络(优化算法) 人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。现代神经网络是一种非线性统计性数据建模工具,常用来对输入和输出间复杂的关系进行建模,或用来探索数据的模式。 人工神经网络从以下四原创 2013-12-13 00:32:02 · 30063 阅读 · 12 评论 -
数据科学学习笔记(use R)(3)
数据的导入 笔记的第一章:数据的导入已上传至github,欢迎访问以及对笔记不完善的地方提出修改完善意见。笔记主要内容:从网上获取数据读入本地数据读入Excel文件读入XML读入JSON数据连接SQL笔记链接:https://github.com/yujunbeta/data-science_studynote/blob/master/ch1原创 2014-08-15 18:43:36 · 2711 阅读 · 1 评论 -
数据科学学习笔记(use R)(2)
笔记的第一章:数据的导入以上传至github原创 2014-08-13 02:26:17 · 2158 阅读 · 0 评论 -
数据科学学习笔记(use R)(1)
写在前面的废话很久没有更新了bo原创 2014-08-08 18:02:44 · 3418 阅读 · 0 评论 -
R语言与函数估计学习笔记(函数展开)
函数估计说到函数的估计我们可以肯定的一点是我们很难得到原模型的函数,不过我们可以找到一个不坏的函数去逼近它,所以我们的函数估计从函数展开开始说起。函数展开首先不得不提的就是大名鼎鼎的Taylor展开,它告诉我们一个光滑的函数在x=t的一个邻域内有Taylor展式\[ f(x)\approx\sum_{j=0}^{p}\frac{f^{(j)}(t)}{j!}(x-t)^{j}=\sum原创 2014-05-17 11:29:04 · 9236 阅读 · 0 评论 -
R语言与机器学习学习笔记(分类算法)(1)K-近邻算法
前言 最近在学习数据挖掘,对数据挖掘中的算法比较感兴趣,打算整理分享一下学习情况,顺便利用R来实现一下数据挖掘算法。 数据挖掘里我打算整理的内容有:分类,聚类分析,关联分析,异常检测四大部分。其中分类算法主要介绍:K-近邻算法,决策树算法,朴素贝叶斯算法,支持向量机,神经网络,logistic回归。 这篇文章是我博客数据挖掘系列的第一篇文章,介绍分类算法中最基本的原创 2013-11-09 16:59:50 · 30857 阅读 · 12 评论 -
R语言与机器学习中的回归方法学习笔记
机器学习中的一些方法如决策树,随机森林,SVM,神经网络由于对数据没有分布的假定等普通线性回归模型的一些约束,预测效果也比较不错,交叉验证结果也能被接受。下面以R中lars包包含数据集diabetes为例说明机器学习中的回归方法。一、数据集及交叉验证办法描述 Diabetes数据集包含在R的lars包中,数据分为x,y,x2三个部分,因变量为y,数据是关于糖尿病的血液化验原创 2013-10-12 11:18:39 · 18873 阅读 · 1 评论 -
R语言与函数估计学习笔记(样条方法)
样条估计如果函数在不同地方有不同的非线性度,或者有多个极值点,那么用多项式特别是低阶多项式来完成拟合是非常不合适的。一种解决办法是我们之前提到的近邻多项式(或者称局部多项式),另一种就是样条——用分段的低阶多项式逼近函数。关于样条,常用的有两类,一类是多项式样条,另一类是光滑样条。 多项式样条多项式样条的样条基有很多,最为著名的是我们之前在函数逼近中提到的truncated pow原创 2014-05-17 11:32:42 · 34343 阅读 · 7 评论 -
R语言与函数估计学习笔记(函数模型的参数估计)
R语言与函数估计学习笔记毫无疑问,函数估计是一个比参数估计要复杂得多的问题,当然也是一个有趣的多的问题。这个问题在模型未知的实验设计的建模中十分的常见,也是我正在学习的内容的一部分。关于函数估计我想至少有这么几个问题是我们关心的:1、我知道函数的一个大概的模型,需要估计函数的参数;2、我不知道它是一个什么模型,但是我想用一个不坏的模型刻画它;3、我不知道它是一个什么模型,我也不太关心它的显原创 2014-05-17 11:20:58 · 24671 阅读 · 4 评论 -
R语言与Markov Chain Monte Carlo(MCMC)方法学习笔记(2)
这里women原创 2014-04-08 21:44:55 · 15723 阅读 · 6 评论 -
R 语言与简单的回归分析
回归模型是计量里最基础也最常见的模型之一。究其原因,我想是因为在实际问题中我们并不知道总体分布如何,而且只有一组数据,那么试着对数据作回归分析将会是一个不错的选择。一、简单线性回归 简单的线性回归涉及到两个变量:一个是解释变量,通常称为x;另一个是被解释变量,通常称为y。回归会用常见的最小二乘算法拟合线性模型:yi = β0 + β1xi +εi其中β0和β1是原创 2012-11-10 12:12:10 · 48374 阅读 · 1 评论 -
R语言里的矩阵处理学习笔记
关于矩阵,通常都会使用matlab来做处理。其实使用R也可以对矩阵做出一些简单的处理。而R语言中提供的matrix,matlab包也提供了不少关于矩阵处理的东西(可以通过??matlab来查看具体函数)。一、矩阵的输入通常我们使用函数matrix来创建矩阵,函数的介绍如下:matrix(data = NA,nrow = 1, ncol = 1, byrow = FALSE, dimna原创 2012-10-07 16:09:56 · 13467 阅读 · 2 评论 -
两道概率题求解(半原创)
问题:任意投n个点在圆周上,问它们同时落在一个半圆上的概率是多少? 解: 用O表圆心,从投下的n个点中,任取一个点作起点,顺时针方向进行编号为P1,P2,. . . P n ,过P1,P2 . . . P n作n条半径,用X1,X2,. . . X n表相应的圆心角的值。易知有X1,X2,. . . X n > 0 ,且:原创 2013-09-24 15:43:47 · 4800 阅读 · 0 评论 -
优化与求解非线性方程组(单变量问题)
求函数极值的问题通常被化简为求解导数为0的点的问题。所以优化问题通常与解非线性方程组联系起来。在前面写点估计中的mle时,我们介绍了R中求解方程极值的函数nlm(),optim(). 我们以一元函数f(x)=ln(x)/(1+x)为例求解函数的极值。f<-function(x) -log(x)/(1+x) #(1)optimize(f,c(0,10))原创 2013-03-06 22:59:46 · 5496 阅读 · 0 评论 -
多变量非线性方程求解问题(牛顿迭代法)
关于多变量的多元函数,我们求解考虑解的问题与单变量是极其类似的。考虑在x处的一阶泰勒展开,我们有0=f(x0)=f(x)+j(x)(x-x0)(后面的等号近似成立,j表示jacobian矩阵. 我们以一个例题来说明牛顿迭代法:考虑这个问题:求解方程组x^2+y^2-5=0 (x+1)*y-3*y-1=0假设给定初值(0,1),那么牛顿迭代法的R程序如下:f1原创 2013-03-09 15:37:45 · 14866 阅读 · 0 评论 -
R语言与数据的预处理
在面对大规模数据时,对数据预处理,获取基本信息是十分必要的。今天分享的就是数据预处理的一些东西。一、获取重要数据 在导入大规模数据时,我们通常需要知道数据中的关键内容:最值,均值,离差,分位数,原点矩,离差,方差等。在R中常用的函数与作用整理如下:统计函数作用Max返回数据的最大值Min原创 2013-01-27 22:10:13 · 19224 阅读 · 0 评论 -
R语言与点估计学习笔记(矩估计与MLE)
众所周知,R语言是个不错的统计软件。今天分享一下利用R语言做点估计的内容。主要有:矩估计、极大似然估计、EM算法、最小二乘估计、刀切法(Jackknife)、自助法(Bootstrap)的相关内容。 点估计是参数估计的一个组成部分。有许多的估计方法与估计理论,具体内容可以参见lehmann的《点估计理论》(推荐第一版,第二版直接从UMVU估计开始的)一、矩估计原创 2012-10-13 03:07:18 · 37998 阅读 · 5 评论 -
时间序列建模一例
#部分运行结果以注释的形式给出,这段代码主要展示了时间序列模型识别,定阶,参数估计,模型判断的R语言示例data(sunspots)mean(sunspots)#51.26596var(sunspots)#1887.813fivenum(sunspots)#0.00 15.70 42.00 74.95 253.80plot(sunspots,type="b",xlab="i",yla原创 2012-12-05 17:30:59 · 3273 阅读 · 0 评论 -
R语言与马克维茨资产组合理论学习笔记(利用fportfolio包实现)
仍然以fportfolio包中的数据集LPP2005.RET为例。library(fPortfolio)#模型设定mvspec<-portfolioSpec()setRiskFreeRate(mvspec)<-0setSolver(mvspec)<-"solveRshortExact"print(mvspec)data<-100*LPP2005Data<-portfolioData(1原创 2012-12-02 13:22:49 · 11901 阅读 · 3 评论 -
R语言与马克维茨资产组合理论学习笔记(fportfolio包简介)
说到投资学里著名的马克维茨资产方差组合的想法,来自于我们通常所说的“不要把鸡蛋放在一个篮子里”。事实也确实如此,在一个有效市场上,单纯投资一只股票或风险债券的收益风险比值是要大于一个资产组合的。 关于马克维茨的均值方差模型,我们略去数学推导简单介绍如下: 投资者将一笔给定的资金在一定时期进行投资。在期初,他购买一些证券,然后在期末卖出。那么在期初他要决定购买哪些原创 2012-12-02 02:27:16 · 21230 阅读 · 7 评论 -
R语言的数据导入与导出学习笔记
福尔·摩斯曾说过:“数据,数据,没有数据的推理是罪恶!”不过比起有意思的统计分析,数据的导入与导出显得十分的无趣,但是不得不说统计分析的数据导入与导出是个让人沮丧的任务,而且耗时巨大。 今天分享的是R中数据的输出与一些特定格式的数据读入。一、数据的输出 R中提供了write.table(),cat()等函数来导出数据。不过值得指出的是R语言能够导出的数据格式是原创 2012-10-27 00:46:34 · 29645 阅读 · 1 评论 -
R语言与时间序列学习笔记(1)
今天分享的是R语言中时间序列的有关内容。主要有:时间序列的创建,ARMA模型的建立与自相关和偏自相关函数。一、 时间序列的创建时间序列的创建函数为:ts().函数的参数列表如下:ts(data = NA, start = 1, end = numeric(),frequency = 1, deltat = 1, ts.eps = getOption("ts.ep原创 2012-10-19 21:31:45 · 29849 阅读 · 7 评论 -
R语言与时间序列学习笔记(2)
ARMA模型的参数估计方法 ARMA参数估计和前面我们介绍的点估计内容相似,也介绍矩估计与最小二乘估计两种方法。 和上一次的点估计一样,这一次我分享的内容主要有:矩估计,最小二乘估计,一个应用例题 关于矩估计与最小二乘估计的基本思想,参见前面点估计的有关介绍. A RMA 模型(Auto-Regr原创 2012-10-20 00:55:45 · 11315 阅读 · 0 评论
分享