R数据可视化手册SE(R Graphics Cookbook SE)
1.R基础知识
运行本书的示例前,需加载以下包:
library(tidyverse)
library(gcookbook)
library(ggplot2)
library(dplyr)
1.1加载以符号分隔的文本文件
data <- read.csv('datafile.csv',
header = F, #数据没有标题行
sep = '\t', #数据以制表符分隔
stringsAsFactors = F #不对数据中的字符串做因子(factor)处理
)
names(data) <- c("c1", "c2", "c3") #手动重命名列名
1.2加载excel文件
library(readxl) #导入包
data <- read_excel("datafile.xlsx",
sheet = 2, #指定工作表(序数和工作表名都可以)
col_names = c("c1", "c2", "c3","c4"), #指定列名
col_types = c("blank", "text", "date", "numeric")
#去除第一列,并且指定之后3列的类型
)
1.3加载SPSS/SAS/Stata文件
library(haven) #会保持更新
data <- read_sav('datafile.sav') #SPSS
read_sas() #SAS
read_dta() #Stata
library(foreign) #可能不支持最新的文件版本
read.octave() #Octave&MATLAB
read.systat() #SYSTAT
read.xport() #SAS XPORT
read.dta() #Stata
read.spss() #SPSS
1.4链接函数和管道操作符%>%
library(dplyr) #管道操作符由dplyr包提供
head(morley)
## Expt Run Speed
## 001 1 1 850
## 002 1 2 740
## 003 1 3 900
## 004 1 4 1070
## 005 1 5 930
## 006 1 6 850
morley %>% #加载morley数据集,传递给filter()函数
filter(Expt == 1) %>% #仅保留数据中Expt值为1的行
summary() #将结果传递给summary()函数,进行统计
## Expt Run Speed
## Min. :1 Min. : 1.00 Min. : 650
## 1st Qu.:1 1st Qu.: 5.75 1st Qu.: 850
## Median :1 Median :10.50 Median : 940
## Mean :1 Mean :10.50 Mean : 909
## 3rd Qu.:1 3rd Qu.:15.25 3rd Qu.: 980
## Max. :1 Max. :20.00 Max. :1070
#summary(filter(morley, Expt == 1))与其等价
在进行多重嵌套函数调用时,使用管道操作符的可读性比直接由内而外调用函数的效果更好。管道操作符本质上是将操作符左侧的内容作为右侧函数调用的第一个参数。

本文介绍了R语言进行数据可视化的基础,包括加载CSV、Excel、SPSS等格式的数据文件,使用管道操作符简化函数调用,以及绘制散点图、折线图、条形图、直方图和箱形图的方法,特别提到了ggplot2包在数据可视化中的应用。
最低0.47元/天 解锁文章
1352






