python数据分析项目实战—————链家北京租房数据统计分析

本文通过Python对链家北京租房数据进行深入分析,包括数据预处理、统计分析和可视化。主要步骤包括删除重复值和缺失值,统一数据格式,检查异常值,新增地理位置信息,统计各户型、面积、价格分布,并按区域和户型进行分组分析。数据可视化部分,以饼图展示户型占比,以区间饼图展示面积和价格分布,以及用条形图和折线图呈现区域和户型的房源数量及租金信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

链家北京租房数据分析

1、读取数据

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

data_dframe = pd.read_csv('链家北京租房数据.csv',header=0,encoding='gbk')
data_dframe
区域 小区名称 户型 面积(㎡) 价格(元/月)
0 东城 万国城MOMA 1室0厅 59.11平米 10000
1 东城 北官厅胡同2号院 3室0厅 56.92平米 6000
2 东城 和平里三区 1室1厅 40.57平米 6900
3 东城 菊儿胡同 2室1厅 57.09平米 8000
4 东城 交道口北二条35号院 1室1厅 42.67平米 5500
8218 顺义 怡馨家园 3室1厅 114.03平米 5500
8219 顺义 旭辉26街区 4房间2卫 59平米 5000
8220 顺义 前进花园玉兰苑 3室1厅 92.41平米 5800
8221 顺义 双裕小区 2室1厅 71.81平米 4200
8222 顺义 樱花园二区 1室1厅 35.43平米 2700

8223 rows × 5 columns

2、数据预处理

2.1 删除数据中的重复值和缺失值
data_dframe = data_dframe.dropna()#删除缺失值
data_dframe = data_dframe.drop_duplicates()#删除重复值
data_dframe
区域 小区名称 户型 面积(㎡) 价格(元/月)
0 东城 万国城MOMA 1室0厅 59.11平米 10000
1 东城 北官厅胡同2号院 3室0厅 56.92平米 6000
2 东城 和平里三区 1室1厅 40.57平米 6900
3 东城 菊儿胡同 2室1厅 57.09平米 8000
4 东城 交道口北二条35号院 1室1厅 42.67平米 5500
8218 顺义 怡馨家园 3室1厅 114.03平米 5500
8219 顺义 旭辉26街区 4房间2卫 59平米 5000
8220 顺义 前进花园玉兰苑 3室1厅 92.41平米 5800
8221 顺义 双裕小区 2室1厅 71.81平米 4200
8222 顺义 樱花园二区 1室1厅 35.43平米 2700

5773 rows × 5 columns
我们可以看到,现在的数据中,户型那一列不太规范,有4房间2卫、3室1厅这种,我们统一改成“x室x厅”格式

2.2 将“户型”一列统一调整为“x室x厅”格式
# 第一种改法
housetype=data_dframe['户型']
htlist=[]
# print(housetype)
for i in housetype:
    new_info=i.replace('房间','室')
    htlist.append(new_info)
data_dframe.loc[:,'户型']=htlist
htlist=[]
for i in housetype:
    new_info=i.replace('卫','厅')
    htlist.append(new_info)
data_dframe.loc[:,'户型']=htlist
data_dframe
# 第二种改法
data_dframe['户型'] = data_dframe['户型'].str.replace('房间','室')
data_dframe['户型'] = data_dframe['户型'].str.replace('卫','厅')
data_dframe
区域 小区名称 户型 面积(㎡) 价格(元/月)
0 东城 万国城MOMA 1室0厅 59.11平米 10000
1 东城 北官厅胡同2号院 3室0厅 56.92平米 6000
2 东城 和平里三区 1室1厅 40.57平米 6900
3 东城 菊儿胡同 2室1厅 57.09平米 8000
4 东城 交道口北二条35号院 1室1厅 42.67平米 5500
8218 顺义 怡馨家园 3室1厅 114.03平米 5500
8219 顺义 旭辉26街区 4室2厅 59平米 5000
8220 顺义 前进花园玉兰苑 3室1厅 92.41平米 5800
8221 顺义 双裕小区 2室1厅 71.81平米 4200
8222 顺义 樱花园二区 1室1厅 35.43平米 2700

5773 rows × 5 columns

2.3 将“面积”一列调整为数值格式
# 第一种方法
data_dframe['面积(㎡)'] = data_dframe['面积(㎡)'].str.replace('平米',' ')
data_dframe['面积(㎡)'] = data_dframe['面积(㎡)'].astype(dtype='float64'
# 1. 数据集说明 这是一份北京租房数据,总计7000 多 条记录,分为 8 个同样结构的 CSV 数据文件。 # 2. 数据处理 首先通过 pandas 将这些数据文件合并到一起,然后进行数据处理,最后将清洗好的数据写到 sqlite 。 # 3.数据分析可视化 ## 3.1 整体情况 该数据集总共有 6024 个房源信息,平均每平米的租金为 169 元,每套房源的平均出租面积为 15.68 平米。 ## 3.2 地区分析 房源数量分布情况如下,可以看到朝阳和通州这两个地区的房源数量要远大于其它区,说明这两个地方的租赁市场比较活跃,人员流动和人口密度可能也比较大。 房租最贵的小区 TOP 10。半壁街南路 1 号院的房租最高,达到 596 元/平米,是平均值 169 元/平米的 **3** 倍。 从户型的房源数量分布来看,主要集中在 2-4 室的户型。之前也分析了,每套房源的平均出租面积为 15.68 平米,可见大部分房源都是合租,毕竟房租那么贵,生活成本太高了。 国规定楼层 7 层以上需要装电梯,依据这个规定,我们根据楼层数来判断房源是否有电梯。 从下图可以看到,电梯房的房源数量比较多,毕竟楼层高,建的房子多,此外,电梯房平均每平米的租金也要比非电梯房贵 10 块钱。 在区分出电梯房之后,我们再引入楼层的纬度进行分析。 从租金上看,不管是电梯房还是非电梯房,低楼层的租金都会比较贵一些。因为北京地处北方,天气较干燥,不会有回南天,而且低楼层出行较为方便。电梯房的高楼层,租金也会比较贵,这大概是因为高楼层的风景较好。 > 南方天气潮湿,在春天的时候,有时会出现 回南天 这一气象,导致低楼层会出现地板、墙壁渗水,所以在南方一般都不爱租低层。 从房源数量上看,非电梯房的高层房源最多,低层房源最少。说明非电梯房的高层房源不容易租出去,这点在租金上也有所体现。
评论 29
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值