系列文章目录
数据获取部分:Python二手房价格预测(一)——数据获取
一、数据清洗
1、先导入需要的库:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import sys
import seaborn as sns
import warnings
import json
import pymongo
import re
warnings.filterwarnings("ignore")
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号
pd.set_option('display.max_rows', 100,'display.max_columns', 1000,"display.max_colwidth",1000,'display.width',1000)
2、读取数据
data = pd.read_excel("链家沈阳二手房数据.xlsx", na_values=np.nan)
# 看一下数据维度
print(data.shape) # (2984, 31)
# 看一下数据的前五行
data.head()
# 输出数据的info
data.info()
'''
输出:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2984 entries, 0 to 2983
Data columns (total 31 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 总价 2984 non-null float64
1 单位价格 2984 non-null object
2 楼房信息 2984 non-null object
3 小区 2984 non-null object
4 所属区县 2984 non-null object
5 房屋户型 2984 non-null object
6 所在楼层 2984 non-null object
7 建筑面积 2984 non-null object
8 户型结构 2967 non-null object
9 套内面积 2984 non-null object
10 建筑类型 2967 non-null object
11 房屋朝向 2984 non-null object
12 建筑结构 2984 non-null object
13 装修情况 2984 non-null object
14 梯户比例 2967 non-null object
15 供暖方式 2984 non-null object
16 配备电梯 2967 non-null object
17 挂牌时间 2984 non-null object
18 交易权属 2984 non-null object
19 上次交易 2984 non-null object
20 房屋用途 2984 non-null object
21 房屋年限 2984 non-null object
22 产权所属 2984 non-null object
23 抵押信息 2984 non-null object
24 房本备件 2984 non-null object
25 户型分间 2984 non-null object
26 小区简介 2984 non-null object
27 别墅类型 17 non-null object
28 用水类型 16 non-null object
29 用电类型 16 non-null object
30 燃气价格 13 non-null object
dtypes: float64(1), object(30)
memory usage: 722.8+ KB
'''
3、数据处理
通过info可以看到数据的27、28、29、30列几乎全部为空值,因此我们先将这四列数据剔除。
data = data[data.columns[:-4]]
# 再看一下数据
data.head()

可以看到数据现在只有 总价 是为数值型数据,通过 data.describe() 也可以得到。因此,需要将一些 Object 类型数据转化为数值型数据。
data['单位价格'] = data['单位价格'].str[:-4]
data['单位价格'] = data['单位价格'].astype(float)
data['楼房信息'] = data['楼房信息'].str[:4]
data['楼房信息'].value_counts()
'''
输出:
未知年建 673
2019 187
2012 183
2018 175
2017 173
2015 171
2016 171
2014 150
2009 142
2010 140
2013 109
2011 102
2020 100
2008 99
2006 72
2007 67
2005 55
2000 43
2021 37
2004 35
1999 25
2003 20
1998 12
1996 10
1997 9
1995 6
2002 5
1990 3
2001 3
1994 3
1992 1
2090 1
2121 1
1987 1
Name: 楼房信息, dtype: int64
# 从楼房信息的输出结果可以看出,有673条样本为“未知年建”,因此这部分数据需要进一步处理,我们使用小区简介中的小区建造年份进行填补。
'''
# 定义填补函数
def fillBuildYear(df):
if df['楼房信息'] == "未知年建":
xiaoqu = json.loads(df['小区简介'].replace("'", '"'))
return xiaoqu['小区建造年份'][:4]
else:
return df['楼房信息']
# 进行填补
data['楼房信息'] = data.apply(lambda x:fillBuildYear(x), axis=1)
# 再看一下
data['楼房信息'].value_counts()
'''
输出:
2012 224
2019 204
2017 194
2018 188
2015 183
2009 179
2014 176
2010 176
2016 172
2008 153
2000 127
2013 113
2011 106
2020 101
2006 98
2007 98
2005 86
2004 59
1999 48
2021 41
2003 36
1998 32
1995 28
1990 27
2002 26
2001 16
1996 16
1997 16
1988 8
1992 8
1987 6
1978 6
1980 6
1989 5
1994 4
1970 3
1985 2
1986 2
1955 1
2121 1
1993 1
1991 1
2090 1
1960 1
1983 1
1958 1
1900 1
1972 1
1979 1
Name: 楼房信息, dtype: int64
'''
# 转换一下类型
data['楼房信息'] = data['楼房信息'].astype(int)
# 然后看一下房屋户型,我们可以发现都是 x室x厅x厨x卫的格式,因此我们直接将其中的数字提取出来。
data['房屋户型_室'] = data['房屋户型'].str[0].astype(int)
data['房屋户型_厅'] = data['房屋户型'].str[2].astype(int)
data['房屋户型_厨'] = data['房屋户型'].str[4].astype(int)
data['房屋户型_卫'] = data['房屋户型'].str[6].astype(int)
# 所在楼层部分只有低中高楼层是确定的,后面的(共几层)无用,因此将低中高楼层提取替换
data['所在楼层'] = data['所在楼层'].str[:3]
# 然后将建筑面积的“㎡” 删掉
data['建筑面积'] = data['建筑面积'].str[:-1].astype(float)
# 然后我们看一下套内面积的数据分布情况
data['套内面积'].value_counts()
'''
输出:
暂无数据 2581
50㎡ 5
129㎡ 4
70㎡ 4
73.66㎡ 3
...
47.54㎡ 1
88.56㎡ 1
66.37㎡ 1
64㎡ 1
122.64㎡ 1
Name: 套内面积, Length: 317, dtype: int64
'''
# 我们可以发现,大量数据是“暂无数据”,但我认为套内面积这个属性还比较重要,因此我们对它进行一个均值填充
# 取其他有数值的房子,计算其建筑面积与套内面积的差值,并在最后取平均,对于“暂无数据”的这些房子,我们用建筑面积减去均值
count = 0
areaDiff = 0
for i in range(data.shape[0]):
if "㎡" in data.iloc[i]['套内面积']:
# print(data.iloc[i]['建筑面积'], data.iloc[i]['套内面积'][:-1])
areaDiff += data.iloc[i]['建筑面积'] - float(data.iloc[i]['套内面积'][:-1])
count += 1
print(round(areaDiff,2), count, round(areaDiff/count, 2)) # 输出:6173.99 403 15.32
# 均值为15.32,因此我们进行填充
# 定义填充函数
def fillInsideArea(df):
if "㎡" in df['套内面积']:
return float(df['套内面积'][:-1])
else:
return (df['建筑面积'] - 15.32)
# 填充
data['套内面积'] = data.apply(lambda x:fillInsideArea(x), axis=1)
# 然后是梯户比例,查看数据可以发现,x梯xx户的形式,因此我们直接将这部分转化为数值的比例,用 户/梯

本文详细介绍了对沈阳二手房数据的清洗过程,包括数据预处理、缺失值填充、数据类型转换等步骤。通过对数据的分析,如楼房信息、房屋户型、建筑面积等关键指标的处理,实现了数据的规范化。同时,进行了丰富的数据可视化,如各区域房源分布、价格直方图、散点图等,揭示了沈阳二手房市场的特征。后续将进行建模,以预测二手房价格。
最低0.47元/天 解锁文章
5518





