python对杭州二手房数据分析
该数据集来自网络公开数据,python语言,在数据分析方面,作为一柄利器,涵盖了“数据获取→数据处理→数据分析→数据可视化”这个流程中每个环节。
环境搭建:
环境:win10+Anaconda +jupyter Notebook
库:Numpy,pandas,matplotlib,seaborn ,missingno,各种包的管理和安装主要利用conda和pip。
数据集:杭州二手房信息样本
探索问题:
要探索的问题有:
1、二手房区域位置特点
2、总价等差间距中房数占比、总价在各区域中的平均值
3、单价等差间距房数占比、单价在各区域的平均值
4、看房时间可视化
6、关注度特点分析
7、楼层高低分析
8、户型结构分析
9、建筑类型
10、朝向分析
11、建筑结构
12、是否有电梯分析
13、用途分析
14、核心卖点词云分析
# 导入需要的数据库
import pandas as pd
import numpy as np
import seaborn as sns
sns.set()
import matplotlib.pyplot as plt
# 设置配置输出高清矢量图:
%config InlineBackend.figure_format = 'svg'
%matplotlib inline
# 使用pandas进行数据读入和分析:
house = pd.read_csv("C:/Users/EVILLIFES/Desktop/接单/Secondhand_house.csv",encoding='gbk')
# 输出主要信息:
house.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8121 entries, 0 to 8120
Data columns (total 45 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 序号 8121 non-null int64
1 小区名称 8121 non-null object
2 区域位置 8121 non-null object
3 经度 8121 non-null object
4 纬度 8121 non-null object
5 总价 8121 non-null object
6 单价 8121 non-null object
7 看房时间 8121 non-null object
8 链家编号 8121 non-null object
9 关注度 8121 non-null object
10 房屋户型 8119 non-null object
11 所在楼层 8121 non-null object
12 建筑面积 8121 non-null object
13 户型结构 7762 non-null object
14 套内面积 8119 non-null object
15 建筑类型 7762 non-null object
16 房屋朝向 8121 non-null object
17 建筑结构 8119 non-null object
18 装修情况 8119 non-null object
19 梯户比例 7762 non-null object
20 配备电梯 7762 non-null object
21 挂牌时间 8121 non-null object
22 交易权属 8121 non-null object
23 上次交易 8121 non-null object
24 房屋用途 8121 non-null object
25 房屋年限 8121 non-null object
26 产权所属 8121 non-null object
27 抵押信息 8121 non-null object
28 房本备件 8121 non-null object
29 房源核验统一编码 8121 non-null object
30 查询房管备案记录 7744 non-null object
31 核心卖点 7747 non-null object
32 小区介绍 5199 non-null object
33 周边配套 4958 non-null object
34 税费解析 821 non-null object
35 用水类型 1248 non-null object
36 用电类型 1248 non-null object
37 燃气价格 384 non-null object
38 户型介绍 2390 non-null object
39 适宜人群 1436 non-null object
40 装修描述 620 non-null object
41 售房详情 354 non-null object
42 交通出行 200 non-null object
43 别墅类型 358 non-null object
44 权属抵押 21 non-null object
dtypes: int64(1), object(44)
memory usage: 2.8+ MB
# 获得行数和列数
rows = len(house)
columns = len(house.columns)
print(rows,columns)
# 输出列的数据类型
columns_type = house.dtypes
columns_type
8121 45
序号 int64
小区名称 object
区域位置 object
经度 object
纬度 object
总价 object
单价 object
看房时间 object
链家编号 object
关注度 object
房屋户型 object
所在楼层 object
建筑面积 object
户型结构 object
套内面积 object
建筑类型 object
房屋朝向 object
建筑结构 object
装修情况 object
梯户比例 object
配备电梯 object
挂牌时间 object
交易权属 object
上次交易 object
房屋用途 object
房屋年限 object
产权所属 object
抵押信息 object
房本备件 object
房源核验统一编码 object
查询房管备案记录 object
核心卖点 object
小区介绍 object
周边配套 object
税费解析 object
用水类型 object
用电类型 object
燃气价格 object
户型介绍 object
适宜人群 object
装修描述 object
售房详情 object
交通出行 object
别墅类型 object
权属抵押 object
dtype: object
# 为了显示中文
from pylab import mpl
mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False
# 通过上述info信息我们发现有数据的缺失值,在此我们统计一下缺失情况:
missing_values = house.isnull().sum()
print(missing_values)
# 通过可视化展现为:
import missingno as msno
msno.matrix(house,figsize = (15,5), labels=True)
序号 0
小区名称 0
区域位置 0
经度 0
纬度 0
总价 0
单价 0
看房时间 0
链家编号 0
关注度 0
房屋户型 2
所在楼层 0
建筑面积 0
户型结构 359
套内面积 2
建筑类型 359
房屋朝向 0
建筑结构 2
装修情况 2
梯户比例 359
配备电梯 359
挂牌时间 0
交易权属 0
上次交易 0
房屋用途 0
房屋年限 0
产权所属 0
抵押信息 0
房本备件 0
房源核验统一编码 0
查询房管备案记录 377
核心卖点 374
小区介绍 2922
周边配套 3163
税费解析 7300
用水类型 6873
用电类型 6873
燃气价格 7737
户型介绍 5731
适宜人群 6685
装修描述 7501
售房详情 7767
交通出行 7921
别墅类型 7763
权属抵押 8100
dtype: int64
<Axes: >
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BpE9p5oJ-1684846070283)(output_5_2.svg)]
msno.bar(house,figsize = (15,5)) # 条形图显示
<Axes: >
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WXSYTvWn-1684846070285)(output_6_1.svg)]
数据清洗:
这一步的数据处理,主要是我们在上一步骤中发现的数据集问题:缺失值问题。实际业务中,数据清洗,往往比这麻烦的多,是一项复杂且繁琐的工作(用过excel清洗数据的都知道~),在网上看到,有人说一个分析项目80%的时间都是在清洗数据数据,不无道理。清洗的目的有两个,第一是通过清洗让数据可用。第二是让数据变的更适合进行后续的分

本文使用Python对杭州二手房数据进行分析,涵盖数据获取、处理、分析和可视化。通过数据清洗处理缺失值,重点关注总价、单价、区域位置、看房时间等关键指标,揭示了房价分布、区域关注度和看房时间的统计特性。此外,还进行了建筑结构、房屋用途等特征的分析,以洞察市场动态。
最低0.47元/天 解锁文章
503

被折叠的 条评论
为什么被折叠?



