6、二手车数据探索与分析-优快云博客

本文链接：https://blog.youkuaiyun.com/bean/article/details/152443860

二手车数据探索与分析

1. 数据结构探索

在研究新数据集时，首先要问的问题之一是数据集的组织方式。若幸运的话，数据源会提供数据字典，它是描述数据集特征的文档。但对于二手车数据，没有这样的文档，所以需要自行创建。

str() 函数可用于显示 R 数据结构（如数据框、向量或列表）的结构，还能为数据字典创建基本大纲。以下是查看二手车数据结构的代码：

> str(usedcars)
'data.frame':   150 obs. of 6 variables:
 $ year        : int  2011 2011 2011 2011 ...
 $ model       : chr  "SEL" "SEL" "SEL" "SEL" ...
 $ price       : int  21992 20995 19995 17809 ...
 $ mileage     : int  7413 10926 7351 11613 ...
 $ color       : chr  "Yellow" "Gray" "Silver" "Gray" ...
 $ transmission: chr  "AUTO" "AUTO" "AUTO" "AUTO" ...

从上述输出可知，数据包含 150 个观测值，即 150 条记录或示例，观测值数量通常简称为 n ，这里可推测有 150 辆待售汽车。同时，数据有 6 个变量，部分变量为字符类型（用 chr 表示），部分为整数类型（用 int