
大数据语言-R语言
HuFeiHu-Blog
知无涯者,虚心若愚,求知若饥,勇者天佑!
展开
-
R语言中文社区历史文章整理(作者篇)
本文选取在R语言中文社区发文较多、较系统的作者整理而成,作者排名不分先后。陈丹奕:知乎大神丹奕论道数据分析师自我修养之天龙八步建模那点事儿——实战篇7个步骤,带你从零开始制作一份简单的数据报告陈老师:日报没人看,周报全白干!减少无效报表就该这么干!码数5小时,结论憋两天,分析报告结论到底该怎么下!从一个小问题洞察挣钱秘籍,却被90%的数据分析师忽略数据化甩锅!把问题优雅的甩给外部环境,活学活用PE...转载 2018-03-30 10:19:40 · 1041 阅读 · 0 评论 -
R resources (free courses, books, tutorials, & cheat sheets)
Date: 10 August 2017Author: Paul van der Laken14 CommentsBelow is a list of free books, tutorials, packages, cheat sheets and other material to learn programming in R and improve your workflow. There ...转载 2018-03-30 10:10:37 · 1274 阅读 · 0 评论 -
R语言Data Frame数据框常用操作
Data Frame一般被翻译为数据框,感觉就像是R中的表,由行和列组成,与Matrix不同的是,每个列可以是不同的数据类型,而Matrix是必须相同的。Data Frame每一列有列名,每一行也可以指定行名。如果不指定行名,那么就是从1开始自增的Sequence来标识每一行。初始化使用data.frame函数就可以初始化一个Data Frame。比如我们要初始化一个student的Data Fr...转载 2018-03-20 11:31:16 · 16264 阅读 · 0 评论 -
R语言重点学习模块
1、tidyverse2、CRAN Task ViewsBayesian Bayesian InferenceCluster Cluster Analysis & Finite Mixture ModelsDistributions Probability DistributionsEconometrics EconometricsEnvironmetrics Analysis of Ec...原创 2018-03-23 17:32:39 · 689 阅读 · 0 评论 -
R语言中进行文件夹及文件夹内文件操作范例
rm(list=ls()) path = ‘J:/lab/EX29 –在R语言中进行文件(夹)操作’ setwd(path) cat(“file A\n”, file=”A”) #创建一个文件A,文件内容是’file A’,’\n’表示换行,这是一个很好的习惯 cat(“file B\n”, file=”B”) #创建一个文件B file.append(“A”, “B”) #将文件B的内容附到A内...转载 2018-03-19 21:10:46 · 9989 阅读 · 0 评论 -
R 数据导入读取read.table函数详解
【R】数据导入读取read.table函数详解,如何读取不规则的数据(fill=T)函数 read.table 是读取矩形格子状数据最为便利的方式。因为实际可能遇到的情况比较多,所以预设了一些函数。这些函数调用了 read.table 但改变了它的一些默认参数。注意,read.table 不是一种有效地读大数值矩阵的方法:见下面的 scan 函数。一些需要考虑到问题是:编码问题如果文件中包含非-A...转载 2018-03-19 21:07:36 · 41931 阅读 · 0 评论 -
R语言-循环repeat,while,for,foreach,iter,next,break
R中有三种不同的循环结构:1.repeat结构它只是简单的重复同一个表达式:repeat expression,如果要跳出循环,可以使用break命令,若要跳至循环中的下一轮迭代,需要使用next命令;如果在循环中不包括break命令,R代码将会是一个无限循环。因此,常用的结构如下:123456repeat { expression if(condition){ break ...转载 2018-03-19 15:40:07 · 26944 阅读 · 1 评论 -
R语言中的缺失值处理
作者 Selva Prabhakaran译者 钱亦欣在处理一些真实数据时,样本中往往会包含缺失值(Missing values)。我们需要对缺失值进行适宜的处理,才能建立更为有效的模型,使得后续预测分析能有更小的偏差。本文将罗列不同的缺失值处理方法,并进行具体应用。数据准备和缺失模式设定本文使用mlbench包中的BostonHousing数据集作为示例来演示不同的缺失值处理方法。由于原始的数据集...转载 2018-03-19 11:07:43 · 14618 阅读 · 0 评论 -
R语言-数据预处理(二)
一、相关数据处理R包1、dplyr包install.packages("dplyr")install.packages("Lahman")install.packages("hflights")示范数据library(Lahman): Lahman 包里的棒球比赛数据集 Battinglibrary(hflights): hflights 包里的飞机航班数据将过长过大的数据集转换为显示更友好的 t...转载 2018-03-19 10:42:41 · 6774 阅读 · 0 评论 -
R语言--数据预处理(二)
一、R中数据集的相关操作1、创建数据集 hospital <- c("New York", "California") patients <- c(150, 350) costs <- c(3.1, 2.5) df <- data.frame(hospital, patients, costs)2、创建新的变量df$totcosts <- df$patient...转载 2018-03-19 10:34:59 · 1833 阅读 · 0 评论 -
R语言---数据源
一、rjson及RJSONIO包介绍rjson是一个R语言与json进行转的包,是一个非常简单的包,支持用 C类库转型和R语言本身转型两种方式。rjson库,提供的函数只有3个,fromJSON(), newJSONParser(), toJSON()。 JSON(JavaScript Object Notation)是一种轻量级的数据交换格式。易于阅读和编写,同时也易于机器解析和生成。 JSON...转载 2018-03-19 10:33:39 · 1471 阅读 · 0 评论 -
R语言与DataFrame
文章转自:https://segmentfault.com/a/1190000004621068什么是DataFrame引用 r-tutor上的定义:DataFrame 是一个表格或者类似二维数组的结构,它的各行表示一个实例,各列表示一个变量。没错,DataFrame就是类似于Excel表格和MySQL数据库一样是一个结构化的数据体。而这种结构化的数据体是当代数据流编程中的中流砥柱,几乎所有先进算...转载 2018-03-19 09:55:23 · 4771 阅读 · 0 评论 -
R语言中plyr包
前言 apply族函数是R语言中很有特色的一类函数,包括了apply、sapply、lapply、tapply、aggregate等等。这一类函数本质上是将数据进行分割、计算和整合。它们在数据分析的各个阶段都有很好的用处。例如在数据准备阶段,我们可以按某个标准将数据分组,然后获得各组的统计描述。或是在建模阶段,为不同组的数据建立模型并比较建模结果。apply族函数与Google提出的mapred...转载 2018-03-22 16:30:58 · 1095 阅读 · 0 评论 -
R 语言--接收命令行参数
1 、commandArgs(),是R自带的参数传递函数,属于位置参数。args=commandArgs(T)print (args[1])print (args[2])print(args[3])print(args[4])运行Rscript test.R 1 3Rscript test.R 1 3 4 5测试2Args <- commandArgs()cat("Args[1]=...原创 2018-03-30 10:56:52 · 18739 阅读 · 0 评论 -
R语言 高效的管道操作magrittr
文章转自:http://blog.fens.me/r-magrittr/前言使用R语言进行数据处理是非常方便的,几行代码就可以完成很复杂的操作。但是,对于数据的连续处理,还是有人觉得代码不好看,要么是长长的函数嵌套调用,有点像Lisp感觉,括号包一切;要么就是每次操作赋值一个临时变量,啰嗦。为什么就不能像Linux的管道一样优雅呢?magrittr包在这样场景中被开发出来,通过管道的方式让连续复杂...转载 2018-03-24 16:51:18 · 1922 阅读 · 0 评论 -
Ubuntu安装Rstudio
1、如果用版本控制系统,则先安装gitsudo apt-get install git2、添加用户和设置密码useradd hufeihu -m -s /bin/bashsudo passwd hufeihusu hufeihu mv rstudio-server-1.1.442-amd64.deb /home/hufeihu/dpkg -i rstudio-server-1.1.442-amd6...原创 2018-03-28 16:15:01 · 1026 阅读 · 0 评论 -
Ubuntu 上R包安装问题汇总
Linux 上安装R包出错后一般会有以下的提示1、Ubuntu R 安装rgdal 出错apt-get install gdal-binapt-get install libxml2 apt-get install libxml2-dev apt-get install libgdal1-dev sudo apt-get install libgdal1-dev libproj-dev2、Ubun...原创 2018-03-28 15:54:26 · 3826 阅读 · 0 评论 -
基于Apache Zeppelin Notebook和R的交互式数据科学
介绍这篇文章的目的是帮助您开始使用 Apache Zeppelin Notebook,它可以满足您用R做数据科学的需求。Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、She...转载 2018-04-02 18:34:55 · 817 阅读 · 0 评论 -
R语言与DataFrame
什么是DataFrame引用 r-tutor上的定义:DataFrame 是一个表格或者类似二维数组的结构,它的各行表示一个实例,各列表示一个变量。没错,DataFrame就是类似于Excel表格和MySQL数据库一样是一个结构化的数据体。而这种结构化的数据体是当代数据流编程中的中流砥柱,几乎所有先进算法的载体都是DataFrame,比如现在我们耳熟能详的逻辑回归算法、贝叶斯算法、支持向量机算法、...转载 2018-04-02 18:22:14 · 908 阅读 · 0 评论 -
数据科学工具箱: SparkR vs Sparklyr
文章转载自:https://segmentfault.com/a/1190000013806395背景介绍SparkR 和 Sparklyr 是两个基于Spark的R语言接口,通过简单的语法深度集成到R语言生态中。SparkR 由 Spark 社区维护,通过源码级别更新SparkR的最新功能,最初从2016年夏天的1.5版本开始支持,从使用上非常像Spark Native。Sparklyr 由 R...转载 2018-04-02 18:05:04 · 995 阅读 · 0 评论 -
dplyr包介绍学习
dplyr包:plyr包的替代者,专门面对数据框,将ddplyr转变为更易用的接口%>%来自dplyr包的管道函数,其作用是将前一步的结果直接传参给下一步的函数,从而省略了中间的赋值步骤,可以大量减少内存中的对象,节省内存,可惜的是应用范围还不是很广。dplyr和data.table(易于操作数据)是R的两个高效数据处理包,这两个包有它们各自的优点。data.table在语法灵活性和perf...转载 2018-03-27 11:37:22 · 6221 阅读 · 0 评论 -
ggplot2包介绍学习
分析数据要做的第一件事情,就是观察它。对于每个变量,哪些值是最常见的?值域是大是小?是否有异常观测?ggplot2图形之基本语法:ggplot2的核心理念是将绘图与数据分离,数据相关的绘图与数据无关的绘图分离ggplot2是按图层作图ggplot2保有命令式作图的调整函数,使其更具灵活性ggplot2将常见的统计变换融入到了绘图中。ggplot的绘图有以下几个特点:第一,有明确的起始(以ggplo...转载 2018-03-27 11:35:20 · 2638 阅读 · 0 评论 -
R语言包学习列表
一、时间序列分析二、空间数据分析三、时空数据分析 四、数据可视化(1) shiny:提供一些基础的交互可视化控件。语法灵活,也支持html, JavaScript, markdown等等等五、数据整合与重塑六、字符处理七、大数据SparkR官网网址:R语言地址:常见学习博客Sparklyr官网网址:R语言地址:常见学习博客八、并行计算Rstudio 数据整合项目(1)tidyverse一词中的ti...原创 2018-03-22 16:15:19 · 1275 阅读 · 0 评论 -
purrr鲜为人知的技巧
purrr 是一个拓展R函数式编程能力的包。它会涉及到很多东西,在这篇文章中,我会展示在purrr中最重要的(至少对我来说)几个函数。用map函数来摆脱循环library(purrr)numbers <- list(11, 12, 13, 14)map_dbl(numbers, sqrt)## [1] 3.316625 3.464102 3.6...转载 2018-03-31 22:43:31 · 1816 阅读 · 1 评论 -
R语言--计算各种距离
MATLAB 版本的 http://blog.youkuaiyun.com/sinat_26917383/article/details/52101425PYTHON版本的 http://book.2cto.com/201511/58274.html=================================================================================...转载 2018-03-30 17:29:10 · 17834 阅读 · 2 评论 -
R语言绘图:时间序列分析 ggplot2绘制ACF PACF
R语言绘制时间序列自相关图和偏自相关图方法一Acf(DATA, type = "correlation")Acf(DATA, type = "partial")方法二library(ggfortify)autoplot(acf(DATA, plot = FALSE))方法三 运用ggplot2(推荐使用这种方式)bacf <- acf(DATA, plot = FALSE)bacfdf...原创 2018-03-24 21:50:07 · 16825 阅读 · 2 评论 -
R语言--批量读取和写入目录
在对很多数据处理时,通常要循环读取文件夹中的文件,这个时候需要批量读取和写入文件,在R语言中,批量读取和写入文件夹中文件的方法如下所示。批量读取文件##读取同一目录下的所有文件path <- "E:/实验数据/UseData/2013"fileNames <- dir(path) filePath <- sapply(fileNames, function(x...原创 2018-03-18 15:52:35 · 13267 阅读 · 1 评论 -
R语言字符串处理--stringr包
本文转载自:https://www.cnblogs.com/nxld/p/6062950.html 1. stringr介绍stringr包被定义为一致的、简单易用的字符串工具集。所有的函数和参数定义都具有一致性,比如,用相同的方法进行NA处理和0长度的向量处理。字符串处理虽然不是R语言中最主要的功能,却也是必不可少的,数据清洗、可视化等的操作都会用到。对于R语言本身的base包提供的字符串基础函...转载 2018-03-18 14:48:05 · 51203 阅读 · 1 评论 -
Rstudio中使用GitHub
首先假设R的project已经建好并且有GitHub账号,接下来想将其添加到GitHub中。这里使用GitHub for window客户端来操作。1. 在Rstudio中打开该项目,然后:Tools -> Version Control -> Project Setup2. 如下图所示 3. 接下来是这样,如果第二步完成没有出现下面这个窗口,那么重新第一步,并在第二步里的箭头2处选...转载 2018-03-18 10:03:38 · 4052 阅读 · 0 评论 -
R语言在线地图神器:Leaflet for R包(一)
一、简介做Javascript相关地图开发的码农,特别关心可视化和开源的同学,都听说过Leaflet这样一个神包(神马,你没有听说过……好吧,当我没说,你自己先搜索一下……)用官方(自吹自擂)的话来说,Leaflet包是号称最受欢迎的JS的开源交互式地图包( most popular open-source JavaScript libraries for interactive maps),可以...转载 2018-03-03 15:53:05 · 2378 阅读 · 0 评论 -
时间序列完全教程(R)
简介在商业应用中,时间是最重要的因素,能够提升成功率。然而绝大多数公司很难跟上时间的脚步。但是随着技术的发展,出现了很多有效的方法,能够让我们预测未来。不要担心,本文并不会讨论时间机器,讨论的都是很实用的东西。 本文将要讨论关于预测的方法。有一种预测是跟时间相关的,而这种处理与时间相关数据的方法叫做时间序列模型。这个模型能够在与时间相关的数据中,寻到一些隐藏的信息来辅助决策。 当我们处理时序序列数...转载 2018-03-03 11:45:41 · 6873 阅读 · 0 评论 -
R语言地图可视化
https://zhuanlan.zhihu.com/p/28205002?utm_source=tuicool&utm_medium=referral之前的ggplot2入门实践篇已经更新告一段落,也已经做了归总分类分享给大家。最近翻看突然发现少了一个知识点,就是分面中没有讲填充多边形分面的应用,虽然其理念跟其他的常用图表类型一致。但是鉴于多边形填充本身就比较复杂,再加上分面肯定能把大部...转载 2018-03-16 10:58:35 · 10579 阅读 · 1 评论 -
七、R数据可视化--ggplot2定位之坐标系详解
坐标系是将两种位置标度结合在一起组成的2维定位系统。ggplot2包含了6种不同的坐标系:名字描述cartesianequalfliptransmappolar笛卡尔坐标系同尺度笛卡尔坐标系翻转的笛卡尔坐标系变换的笛卡尔坐标系地图射影极坐标系坐标系主要有两大功能:将2个位置图形属性组合起来在图形中形成2维方位系统。位置图形属性分别被称为x和y,但将它们称作位置1和位置2可能会更适合,因为图形位置属...转载 2018-03-16 10:57:58 · 2937 阅读 · 0 评论 -
六、R语言可视化--ggplot2定位之分面
分面也就是切割数据生成一系列小联号图,每个小图表示不同的数据子集。本篇将讨论如何较好的微调分面,特别是与位置标度相近的方法。在qplot中可以选择分面系统。2维分面使用face_grid,1维分面使用face_wrap。分面通常会占用大量空间,因此本篇使用mpg数据集的子集来进行展示。12> library(ggplot2)> mpg2 <- subset(mpg,cyl != ...转载 2018-03-15 21:05:52 · 3038 阅读 · 1 评论 -
五、R语言可视化--ggplot2之标度、坐标轴和图例详解
本文转自:http://www.cnblogs.com/lizhilei-123/p/6808370.html标度控制着数据到图形属性的映射,当有需要时,ggplot2会自动添加一个默认的标度。我们确实可以在不了解标度运行原理的情况下画出许多图形,但理解标度并学会如何操纵它们则将赋予我们对图形更强的控制能力。每一种图形属性都拥有一个默认的标度,此标度将在我们每次使用这个图形属性时被自动添加到图形中...转载 2018-03-15 21:02:58 · 16653 阅读 · 2 评论 -
三、R语言可视化--ggplot2和REmap包绘制地图
绘制地图1.ggplot2提供了一些工具,让使用maps包绘制的地图与其他ggplot2图形的结合变得十分方便。关于中国地图的绘制可以参考:http://cos.name/2009/07/drawing-china-map-using-r/国家maps地图数据名法国意大利新西兰美国(郡)美国(州)美国(边界)全世界franceitalynzcountrystateusaworld 我们使用地图数据...转载 2018-03-15 20:54:04 · 19421 阅读 · 1 评论 -
二、R语言可视化-ggplot2工具箱
转载来自:http://www.cnblogs.com/lizhilei-123/p/6725588.htmlggplot2工具箱 ggplot2的图层化架构让我们以一种结构化的方法来设计和构建图形,这里每一小节解决一个特定的作图问题。1.基本图形类型geom_area()用于绘制面积图geom_bar(stat="identity")绘制条形图,我们需要指定stat=“identity”,因为默...转载 2018-03-15 20:52:45 · 1506 阅读 · 0 评论 -
一、R语言可视化--ggplot2之快速作图qplot()
转载来自:http://www.cnblogs.com/lizhilei-123/p/6722116.htmlggplot2之快速作图qplot()qplot()的意思是快速作图,利用它可以很方便的创建各种复杂的图形,其他系统需要好几行代码才能解决的问题,用qplot只需要一行就能完成。本篇主要介绍:qplot()的基本用法如何将变量映射到图形属性上(如大小、颜色和形状等)如何通过指定不同的几何对...转载 2018-03-15 20:50:53 · 4595 阅读 · 0 评论 -
R语言-创建属于自己的调色板
基于几种颜色创建属于我自己的调色板主要有以下几个方面:将颜色与其对应的十六进制矢量联系起来创建访问十六进制矢量的函数调色板命名访问调用调色板创建兼容ggplot2的尺度函数首先我们创建一个颜色变量library(ggplot2)theme_set(theme_minimal())my_colors <- c( `purple` = "#7b0099", `yellow` = "#...原创 2018-03-15 20:11:21 · 4923 阅读 · 0 评论 -
相关矩阵可视化包ggcorrplot
基于ggplot2包以及corrplot包的相关矩阵可视化包ggcorrplot,ggcorrplot包提供对相关矩阵重排序以及在相关图中展示显著性水平的方法,同时也能计算相关性p-valuelibrary(ggcorrplot)#计算相关矩阵(cor()计算结果不提供p-value)data("mtcars")corr <- round(cor(mtcars), 1)head...原创 2018-03-15 19:52:28 · 3195 阅读 · 0 评论