二手车数据探索与分析
1. 数据结构探索
在研究新数据集时,首先要问的问题之一是数据集的组织方式。若幸运的话,数据源会提供数据字典,它是描述数据集特征的文档。但对于二手车数据,没有这样的文档,所以需要自行创建。
str() 函数可用于显示 R 数据结构(如数据框、向量或列表)的结构,还能为数据字典创建基本大纲。以下是查看二手车数据结构的代码:
> str(usedcars)
'data.frame': 150 obs. of 6 variables:
$ year : int 2011 2011 2011 2011 ...
$ model : chr "SEL" "SEL" "SEL" "SEL" ...
$ price : int 21992 20995 19995 17809 ...
$ mileage : int 7413 10926 7351 11613 ...
$ color : chr "Yellow" "Gray" "Silver" "Gray" ...
$ transmission: chr "AUTO" "AUTO" "AUTO" "AUTO" ...
从上述输出可知,数据包含 150 个观测值,即 150 条记录或示例,观测值数量通常简称为 n ,这里可推测有 150 辆待售汽车。同时,数据有 6 个变量,部分变量为字符类型(用 chr 表示),部分为整数类型(用 int
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



