
R语言系列
文章平均质量分 88
Paper易论
AIGC 前沿技术的翻译者与引路人
展开
-
R语言之ggplot2画图篇
转载自:http://blog.youkuaiyun.com/lilanfeng1991/article/details/286652551. qplotquick plot数据集:diamonds(1)基本用法eg[plain] view plaincopylibrary(ggplot2) leng转载 2014-11-19 22:31:23 · 4831 阅读 · 0 评论 -
R语言统计分析篇
转载自:http://blog.youkuaiyun.com/lilanfeng1991/article/details/282667511.描述性统计分析(1)方法云集通过summary,sapply()计算描述性统计量[plain] view plaincopyvarsvars head(mtcars[var转载 2014-11-19 22:29:48 · 6243 阅读 · 1 评论 -
R语言基本统计分析方法(包及函数)
转载自:摘要:目前经典的统计学分析方法主要有回归分析,Logistic回归,决策树,支持向量机,聚类分析,关联分析,主成分分析,对应分析,因子分析等,那么对于这些经典的分析方法在R中的使用主要有那些程序包及函数呢?1、线性模型~回归分析:【包】:stats 【函数】:lm(formula, data, ...)逐步回归:step(lm(for转载 2014-11-18 23:37:21 · 11208 阅读 · 0 评论 -
R语言多元统计包简介:各种假设检验 统计方法 聚类分析 数据处理
转载自:http://blog.youkuaiyun.com/duqi_yc/article/details/9446707www.biostatistic.net/统计分析 生物信息 sas matlab R语言Multivariate Statistics (多元统计)网址:http://cran.r-project.org/web/views/Multivariate.html转:h转载 2014-11-18 23:31:25 · 5589 阅读 · 0 评论 -
R语言学习系列(数据挖掘之决策树算法实现--ID3代码篇)
转载自:http://blog.youkuaiyun.com/hawksoft/article/details/77608681、辅助类,用于计算过程和结果存储[csharp] view plaincopyprint?/// /// 决策树节点. /// public class DecisionTree转载 2014-11-17 21:53:05 · 2647 阅读 · 0 评论 -
R 语言与简单的回归分析
转载自:http://blog.youkuaiyun.com/yujunbeta/article/details/8168816回归模型是计量里最基础也最常见的模型之一。究其原因,我想是因为在实际问题中我们并不知道总体分布如何,而且只有一组数据,那么试着对数据作回归分析将会是一个不错的选择。一、简单线性回归 简单的线性回归涉及到两个变量:一个是解释变量,通常称为转载 2014-11-17 21:51:41 · 2433 阅读 · 0 评论 -
R语言之探索性数据分析篇
转载自:http://blog.youkuaiyun.com/lilanfeng1991/article/details/18565955探索性数据分析(Exploratory Data Analysis,EDA):是通过分析数据集以决定选择哪种方法适合统计推断的过程。4.1 主要分析工具主要的图形表示方法有(括号中为R语言绘图函数):(1)条图(barplot):用于分类转载 2014-11-17 21:49:10 · 2671 阅读 · 0 评论 -
R中因子分析的得分计算
转载自:http://blog.youkuaiyun.com/liuxincumt/article/details/8110127主要是为了理解因子得分,跟factanal计算出来的比较。data(USArrests)fa D A D1 x #Bartlett方法(最小二乘法)因子得分为f 然后标准化就是fa$scores了fa r Th转载 2014-11-17 21:53:54 · 8537 阅读 · 0 评论 -
R语言与回归分析几个假设的检验
转载自:http://blog.youkuaiyun.com/yujunbeta/article/details/8169475一、从线性回归的假设说起 对于线性回归而言,若要求回归估计有一些良好性质比如无偏性,就需要加上一些假定条件。比如要达到估计的无偏性,我们通常需要加上高斯-马尔科夫条件:A1、对参数而言的线性性A2、样本的随机抽样性A3、误差的转载 2014-11-17 21:52:22 · 34010 阅读 · 0 评论 -
R语言之随机数与抽样模拟篇
转载自:http://blog.youkuaiyun.com/lilanfeng1991/article/details/185057233.1 随机数的产生3.1.1 均匀分布随机数R语言生成均匀分布随机数的函数是runif()句法是:runif(n,min=0,max=1) n表示生成的随机数数量,min表示均匀分布的下限,max表示均匀分布的上限;若省略参数mi转载 2014-11-17 21:48:30 · 9790 阅读 · 0 评论 -
R语言主成分和因子分析篇
转载自:http://blog.youkuaiyun.com/lilanfeng1991/article/details/36190841主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分。探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法,通过寻找一组更小 的、潜在的或隐藏的结构来解释已观测到的、变量间的关系。转载 2014-11-16 11:45:04 · 5171 阅读 · 0 评论 -
R语言重抽样与自助法
转载自:http://blog.youkuaiyun.com/lilanfeng1991/article/details/360501031.置换检验当数据抽样于非正态分布时,如未知或混合分布、样本量过小、存在离群点、基于理论分布设计合适的统计检验过于复杂且数学上难以处理等情况,这时基于随机化和重抽样的统计方法可派上用场。置换检验和自助法转载 2014-11-16 11:43:04 · 3568 阅读 · 0 评论 -
使用ggplot2画图
转载自:http://blog.youkuaiyun.com/macyang/article/details/40039765Why use ggplot2ggplot2是我见过最human friendly的画图软件,这得益于Leland Wilkinson在他的著作《The Grammar of Graphics》中提出了一套图形语法,把图形元素抽象成可以自由组合的成分,Had转载 2014-11-19 22:41:27 · 1034 阅读 · 0 评论 -
ggplot2作图详解:图层语法和图形组合
转载自:http://blog.youkuaiyun.com/u014801157/article/details/24372517图层设置是ggplot2做图的关键。通过查看ggplot图形对象的数据结构我们了解到一个图层至少包含几何类型、统计类型和位置调整三方面的东西,当然数据和映射得首先建立。如果把ggplot2当成是太极,这些内容的设置就相当于太极的招式,有固定方法;对招式理解透彻后以随意转载 2014-11-19 22:45:18 · 4040 阅读 · 0 评论 -
R语言之功效分析篇
转载自:http://blog.youkuaiyun.com/lilanfeng1991/article/details/33728435样本大小 :指实验设计中每种条件/组中观测的数目;显著性水平(alpha):由I型错误的概率来定义,可看做是发现效应不发生的概率;功效:通过1减去二型错误的概率来定义,即真实效应发生的概率;效应值:指在重力备择或研究假设下效应的量。转载 2014-11-19 22:35:55 · 3895 阅读 · 0 评论 -
R语言中样本平衡的几种方法
在对不平衡的分类数据集进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性。在不平衡的数据中,任一算法都没法从样本量少的类中获取足够的信息来进行精确预测。因此,机器学习算法常常被要求应用在平衡数据集上。不平衡分类是一种有监督学习,但它处理的对象中有一个类所占的比例远远大于其余类。比起多分类,这一问题在二分类中更为常见。不平衡一词指代数据中响应变量(被解释原创 2017-06-06 21:39:07 · 8284 阅读 · 2 评论 -
R语言预测初步(R语言预测实战-节选)
经过上一节的介绍相信各位读者已经知道如何安装R及R程序包。本节拟通过一个简单的例子说明用R语言进行预测的主要步骤,旨在让各位读者了解用R语言进行预测的基本过程。本例使用forecast包中自带的数据集wineind,它表示从1980年1月到1994年8月,由葡萄酒生产商销售的容量不到1升的澳大利亚酒的总量。数据示意如下: 从数据中可知,这是典型的时间序列数据,一行表示一年,12列表示一年的原创 2017-05-29 20:42:15 · 18647 阅读 · 4 评论 -
R语言基础入门,看这里!
数据挖掘实战,手把手教会你原创 2017-05-30 08:58:24 · 937 阅读 · 0 评论 -
R语言数据处理详解
数据挖掘实战,手把手教会你原创 2017-05-30 09:58:11 · 1563 阅读 · 0 评论 -
用R语言绘制动态地图,代码奉上!(REmap包详解)
options(remap.ak="MY07CLhm3wKi4N2tQ6WP4kzz21BBZagI")安装包library(devtools)install_github('badbye/baidumap')install_github('lchiffon/REmap')baidumap包函数说明getBaiduMap函数getBaiduMap(location, w原创 2017-05-30 22:09:32 · 25892 阅读 · 8 评论 -
R语言lattice包介绍
lattice包是一个非常强大地高级绘图程序包,由Deepayan Sarkar编写,这个程序包使20世纪90年代初期在贝尔实验室发展起来的特雷里斯图形框架(Trellis)变成了现实。 lattice包很容易实现单变量或多变量的数据可视化,生成的图形为栅栏图。在一个或多个其它变量的条件下,栅栏图可展示某个变量的分布或与其他变量间的关系。 lattice包提供了丰富的图形函数,可生成单变量图形(点原创 2017-05-29 20:33:07 · 14283 阅读 · 0 评论 -
外推预测法(R语言预测实战-节选)
外推预测法是根据过去和现在的发展趋势推断未来的一类方法的总称。因为外推预测法基于过去的行为数据,所以它是保守的。通常可以使用时间序列数据或横截面数据进行外推预测。对于横截面数据进行外推的情况,比如可以使用一些州枪支法律改变的行为反应来预测其它州的反应。当外推的结果与真实的结果不一致时,外推就不再保守了。此时,可以考虑加入判断,合并到外推的结果中。那么有哪些方法可以合并一些知识到外推的结果中呢?原创 2017-05-29 20:47:31 · 5185 阅读 · 0 评论 -
R语言时间序列函数整理
转载自:http://blog.youkuaiyun.com/fennvde007/article/details/37910481【资料】文档1:《R与金融时间序列分析常见问题集》【包】library(zoo) #时间格式预处理library(xts) #同上library(timeSeires) #同上library(u转载 2014-11-22 16:53:01 · 3137 阅读 · 0 评论 -
马恩驰:R向量化运算
转载自:http://blog.youkuaiyun.com/littleyearyear/article/details/39940533一、背景当今社会,数据量剧增让我们越来越关注计算或算法的效率。“并行和分布式”计算是目前主流的能有效提升计算效率的方法,但学习及实施成本较高。所以,向量化运算对于提升计算效率是个不错的选择。作为并行计算的先驱,向量化运算在提升计算效率的同时,也能一定程转载 2014-11-19 22:40:25 · 1411 阅读 · 0 评论 -
R的数据可视化,各种图表,常用统计量计算
转载自:http://blog.youkuaiyun.com/hwwn2009/article/details/38579811hist()和barplot()的功能差不多。6 | 14指的是61有一个,64有一个。xaxs、yaxs:坐标的样式。pch:点的图形形状。plot:是高级绘图lin转载 2014-11-19 22:39:14 · 1982 阅读 · 1 评论 -
R语言回归篇
转载自:http://blog.youkuaiyun.com/lilanfeng1991/article/details/296274051.回归的多面性回归类型用途简单线性个量化的解释变量来预测一个量化的响应变量(一个因变量、一个自变量)多项式一个量化的解释变量预测一个量化的响应变量,模型的关系是n阶多项式(一个预测变量,但同时转载 2014-11-19 22:32:24 · 4256 阅读 · 0 评论 -
ggplot2作图详解:标尺(scale)设置
转载自:http://blog.youkuaiyun.com/u014801157/article/details/24372521标尺是ggplot2作图必需的元素,在《映射》一节提到了它的概念并简单进行了设置。在数据分析阶段,为避免陷入数据无关的垃圾坑,我们只需要设置映射,ggplot2自动配置合适的标尺并产生坐标和图例。这是ggplot2适合数据可视化分析的原因之一。在图形美化阶段,转载 2014-11-19 22:46:07 · 14143 阅读 · 0 评论 -
R语言处理缺失数据的高级方法
转载自:http://blog.youkuaiyun.com/lilanfeng1991/article/details/36467891主要用到VIM和mice包[plain] view plaincopyinstall.packages(c("VIM","mice")) 1.处理缺失值的步骤步转载 2014-11-16 11:47:09 · 2177 阅读 · 0 评论 -
常用连续型分布介绍及R语言实现
转载自:http://blog.fens.me/r-density/R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言。要成为有理想的极客,我们不能停留在语法上,要掌握牢固的数学,概率,统计转载 2014-11-13 21:06:17 · 1869 阅读 · 0 评论 -
R语言的常用函数速查
转载自:基本一、数据管理vector:向量 numeric:数值型向量 logical:逻辑型向量character;字符型向量 list:列表 data.frame:数据框c:连接为向量或列表 length:求长度 subset:求子集seq,from:to,sequence:等差序列rep:重复 NA:缺失值 NULL:空对象sort,order,unique,rev:排序un转载 2014-11-13 17:41:08 · 1019 阅读 · 0 评论 -
不同版本的散点图矩阵
转载自:散点图矩阵是散点图的高维扩展,它从一定程度上克服了在平面上展示高维数据的困难,在展示多维数据的两两关系时有着不可替代的作用。R 软件就包含了各种不同版本的散点图函数,本文主要介绍散点图矩阵的设计及其在R中的实现方法,并比较它们的长短,从而审时度势,选取自己喜欢的表现方式和相应的函数。他山之石,可以攻玉。除了辅之以不同的颜色、符号外,散点图中还可以添加其他图形元素,以增强表达转载 2014-11-09 21:26:23 · 3742 阅读 · 0 评论 -
ggthemes包:丰富ggplot2的表现力
转载自:http://site.douban.com/182577/widget/notes/10568279/note/257294505/ggplot2包的最新0.93版本允许自定义主题,这样ggplot的表现力可以通过各种不同的主题获得提升。ggthemes包就是ggplot2的主题扩展包,提供了供ggplot2使用的新主题,尺度,几何对象和一些新函数。其中最有趣的当转载 2014-11-08 20:44:23 · 5582 阅读 · 0 评论 -
极简主义shiny app
转载自:http://site.douban.com/182577/widget/notes/10568279/note/349413814/为了上课,赶制了一个异常简单的shiny app。展示二项树期权的定价。贴在这里,立此存照。等着以后有时间慢慢把它做漂亮。。。1.二项树期权用fOptions包的BinomialTreeOption()计算期权价格;用Bino转载 2014-11-08 20:38:40 · 1046 阅读 · 0 评论 -
如何在R中画出高效美观的相关性分析图
转载自:没有前情的前情提要:承蒙船长大人提携 有机会在小站写些跟量化有关的短文 内容预测是对正在上的研究生课程的总结笔记 借以巩固所学知识并练习英文写作 风格估计会捉摸不定 还请多多指教!- 戌How to Draw Informative and Decent Pair Plots in R为便于说明,我以Ecdat包中的Capm数据为例。Capm转载 2014-11-08 20:10:35 · 18139 阅读 · 0 评论 -
现代分类方法在医学诊断中的应用——基于R的实现
转载自:http://f.dataguru.cn/thread-2076-1-1.html1.引言随着统计科学的日益发展,其对其他学科的渗透作用日益增强,数据分析方法在医学、生物学、社会学等各个学科中得到了广泛的应用,本文试图对收集到的某个临床医学数据运用决策树、神经网络、支持向量机、随机森林等各种现代分类方法进行分析,以佐证数据挖掘对其他学科的重要意义;另一方面,就各种现代分类方法的实际转载 2014-11-08 17:04:26 · 1771 阅读 · 0 评论 -
R中因子分析的得分计算
转载自:http://blog.youkuaiyun.com/liuxincumt/article/details/8110127主要是为了理解因子得分,跟factanal计算出来的比较。data(USArrests)fa D A D1 x #Bartlett方法(最小二乘法)因子得分为f 然后标准化就是fa$scores了fa r Th转载 2014-11-07 23:06:55 · 6903 阅读 · 0 评论 -
大数据的可视化:bigvis包的简单尝试
转载自:http://site.douban.com/182577/widget/notes/10568279/note/273907035/bigvis包是Hadley Wickham的一个新作品。这个包提供了一个在使用可视化探索大数据(10-100 million 的观测)时候的一个四步框架:bin, summarise, smooth和visualise。这个包在这里:https://g转载 2014-11-08 20:40:13 · 711 阅读 · 0 评论 -
贝叶斯集锦:MCMCpack包
转载自:####贝叶斯集锦这个系列目的是想收集一些使用R的贝叶斯统计案例####没什么系统性也没啥方法介绍,大家见谅。MCMCpack包的一个例子:贝叶斯线性回归 从1960年代贝叶斯统计学派复兴到今天贝叶斯统计的广泛运用,MCMC方法起到了极重要的作用。作为一种计算手段,MCMC以模拟的方法解决了贝叶斯方法中后验分布的计算问题。 MCMCpac转载 2014-11-08 20:20:48 · 4269 阅读 · 0 评论 -
《R Cookbook》中文笔记
据集 ......................................................................................................................... 15@选择镜像 .................................................................原创 2014-11-08 21:08:12 · 3325 阅读 · 0 评论 -
贝叶斯集锦:R和JAGS的交互
转载自:http://site.douban.com/182577/widget/notes/10567181/note/295466672/转载 2014-11-08 20:28:12 · 7691 阅读 · 0 评论