- 任务一
- 找到租房数据rent.csv并读入,命名为dat0,用summary函数查看数据记录的变量等情况。
- 任务二
- 在这个任务中,我们学习对离散型的数据进行描述。以房屋所在城区为例,这是个多水平的离散型数据。可以计算其频数分布,或者绘制柱状图对其进行展示和解读。R语言中的table函数可以计算频数,barplot可以绘制柱状图。
- 任务三
- 在这个任务中,我们对连续型的数据进行描述。直方图是最常用的描述连续型数据的统计图,在R语言中可以通过hist实现。此外,箱线图也可以对连续型数据进行描述,在R语言中可以用boxplot实现。 绘制月租金的直方图和箱线图。并解读图形。
- 任务四
- 在这个任务中,我们尝试对比不同城区的月租金差异。这是个偏向于开放的研究问题,可以有很多解决办法。这里提供两个思路。
- 1.计算不同城区月租金的平均水平,并用柱状图进行展示。分组计算统计量可以使用R语言中的tapply函数。对图形进行解读。
- 2.绘制月租金-城区分组箱线图。使用boxplot函数。(注意:按照城区这个因子的水平按照”月租金中位数”从高到低进行排序。)对图形进行解读。
- 任务五
- 思考:针对这个数据,你还能提出什么分析问题。
这里提供几个开放性的问题,尝试用合适的统计图展示结果。你可以从下述问题任选一个,也可以自己提出问题进行分析。 - 1.数据集中是否邻近地铁也是体现房屋地理位置的因素,它对月租金有什么影响?
- 2.卧室数是能够体现房屋内部结构的变量。一般而言,卧室数越多,房屋可能就越大,居住越舒适。然而,在与人合租的情况下,卧室数过多代表租客较多,隐私较差。那么卧室数对于月租金有什么影响?注意,卧室数看似是连续型的数据,但其取值并不丰富,可以当作离散型数据进行处理。
任务一
找到租房数据rent.csv并读入,命名为dat0,用summary函数查看数据记录的变量等情况。
## 读入数据
dat0 = read.csv("C:\\Users\\Desktop\\rent.csv", fileEncoding = "UTF-8")
head(dat0)
## 查看维度
dim(dat0)
## 数据汇总
summary(dat0)
任务二
在这个任务中,我们学习对离散型的数据进行描述。以房屋所在城区为例,这是个多水平的离散型数据。可以计算其频数分布,或者绘制柱状图对其进行展示和解读。R语言中的table函数可以计算频数,barplot可以绘制柱状图。
## 计算房屋所在地区的频数分布
(a = table(dat0$region))
## 绘制柱形图对房屋所在地区进行展示和解读
a = a[order(a,decreasing = T)]
barplot(a, names.arg = names(a), col = c("#228B22","#00C957","#BDFCC9","#2E8B57"), xlab = "房屋所在地区", ylab = "频数", cex = 0.7, cex.axis = 1, main = "北京市房屋所在地区柱状图")
**解读:**北京市房屋所在地区最多的首先是朝阳区,其次是通州区、昌平区、丰台区、海淀区、大兴区、顺义区、石景山、房山、西城区、东城区。
任务三
在这个任务中,我们对连续型的数据进行描述。直方图是最常用的描述连续型数据的统计图,在R语言中可以通过hist实现。此外,箱线图也可以对连续型数据进行描述,在R语言中可以用boxplot实现。 绘制月租金的直方图和箱线图。并解读图形。
summary(dat0$rent)
## 绘制月租金的直方图
hist(dat0$rent, xlab = "北京市月租金", ylab = "频数", c