按照个人要求的格式来创建含有研究信息的数据集,这是任何数据分析的第一步。在 R 中,这个任务包括以下两步:
- 选择一种数据结构来存储数据;
- 将数据输入或导入到这个数据结构中。
mpg 数据框(Data Frame)
mpg 是 ggplot2 包的一个内置数据框;mpg 包含1999-2008年38款热门车型的燃油经济性数据。这个数据集包含了EPA提供的燃油经济性数据的一个子集。它只包含1999年至2008年间每年都有新版本的车型——这是用来代表这款车的受欢迎程度的。mpg 的格式为包含234行和11个变量的数据框:
> install.packages("tidyverse")
> library(tidyverse)
> library(ggplot2)
> dim(mpg)
[1] 234 11
> mpg[1:10,]
# A tibble: 10 x 11
manufacturer model displ year cyl trans drv cty hwy fl class
<chr> <chr> <dbl> <int> <int> <chr> <chr> <int> <int> <chr> <chr>
1 audi a4 1.8 1999 4 auto(~ f 18 29 p comp~
2 audi a4 1.8 1999 4 manua~ f 21 29 p comp~
3 audi a4 2 2008 4 manua~ f