二手车数据探索与分析
1. 数据结构探索
在处理新数据集时,首先要了解其组织方式。若幸运的话,数据源会提供数据字典,用于描述数据集的特征。但对于二手车数据,没有相关文档,需要自行创建。
在 R 语言中, str() 函数可用于显示数据结构,如数据框、向量或列表的结构,也能为数据字典创建基本框架。以下是使用 str() 函数查看二手车数据结构的代码:
> str(usedcars)
'data.frame': 150 obs. of 6 variables:
$ year : int 2011 2011 2011 2011 ...
$ model : chr "SEL" "SEL" "SEL" "SEL" ...
$ price : int 21992 20995 19995 17809 ...
$ mileage : int 7413 10926 7351 11613 ...
$ color : chr "Yellow" "Gray" "Silver" "Gray" ...
$ transmission: chr "AUTO" "AUTO" "AUTO" "AUTO" ...
从输出可知,数据集包含 150 条观测记录(observations),通常用 n 表示观测数量,这里 n = 150 ,意味着有 150 辆二手车的数据。同时,数据有 6 个特征变量,分别为 y
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



