Second house data analysis

本文使用Python对杭州二手房数据进行分析,涵盖数据获取、处理、分析和可视化。通过数据清洗处理缺失值,重点关注总价、单价、区域位置、看房时间等关键指标,揭示了房价分布、区域关注度和看房时间的统计特性。此外,还进行了建筑结构、房屋用途等特征的分析,以洞察市场动态。

python对杭州二手房数据分析

该数据集来自网络公开数据,python语言,在数据分析方面,作为一柄利器,涵盖了“数据获取→数据处理→数据分析→数据可视化”这个流程中每个环节。

环境搭建:

环境:win10+Anaconda +jupyter Notebook

库:Numpy,pandas,matplotlib,seaborn ,missingno,各种包的管理和安装主要利用conda和pip。

数据集:杭州二手房信息样本

探索问题:

要探索的问题有:
1、二手房区域位置特点
2、总价等差间距中房数占比、总价在各区域中的平均值
3、单价等差间距房数占比、单价在各区域的平均值
4、看房时间可视化
6、关注度特点分析
7、楼层高低分析
8、户型结构分析
9、建筑类型
10、朝向分析
11、建筑结构
12、是否有电梯分析
13、用途分析
14、核心卖点词云分析

# 导入需要的数据库
import pandas as pd
import numpy as np
import seaborn as sns
sns.set()
import matplotlib.pyplot as plt

# 设置配置输出高清矢量图:
%config InlineBackend.figure_format = 'svg'
%matplotlib inline

# 使用pandas进行数据读入和分析:
house = pd.read_csv("C:/Users/EVILLIFES/Desktop/接单/Secondhand_house.csv",encoding='gbk')

# 输出主要信息:
house.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8121 entries, 0 to 8120
Data columns (total 45 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   序号        8121 non-null   int64 
 1   小区名称      8121 non-null   object
 2   区域位置      8121 non-null   object
 3   经度        8121 non-null   object
 4   纬度        8121 non-null   object
 5   总价        8121 non-null   object
 6   单价        8121 non-null   object
 7   看房时间      8121 non-null   object
 8   链家编号      8121 non-null   object
 9   关注度       8121 non-null   object
 10  房屋户型      8119 non-null   object
 11  所在楼层      8121 non-null   object
 12  建筑面积      8121 non-null   object
 13  户型结构      7762 non-null   object
 14  套内面积      8119 non-null   object
 15  建筑类型      7762 non-null   object
 16  房屋朝向      8121 non-null   object
 17  建筑结构      8119 non-null   object
 18  装修情况      8119 non-null   object
 19  梯户比例      7762 non-null   object
 20  配备电梯      7762 non-null   object
 21  挂牌时间      8121 non-null   object
 22  交易权属      8121 non-null   object
 23  上次交易      8121 non-null   object
 24  房屋用途      8121 non-null   object
 25  房屋年限      8121 non-null   object
 26  产权所属      8121 non-null   object
 27  抵押信息      8121 non-null   object
 28  房本备件      8121 non-null   object
 29  房源核验统一编码  8121 non-null   object
 30  查询房管备案记录  7744 non-null   object
 31  核心卖点      7747 non-null   object
 32  小区介绍      5199 non-null   object
 33  周边配套      4958 non-null   object
 34  税费解析      821 non-null    object
 35  用水类型      1248 non-null   object
 36  用电类型      1248 non-null   object
 37  燃气价格      384 non-null    object
 38  户型介绍      2390 non-null   object
 39  适宜人群      1436 non-null   object
 40  装修描述      620 non-null    object
 41  售房详情      354 non-null    object
 42  交通出行      200 non-null    object
 43  别墅类型      358 non-null    object
 44  权属抵押      21 non-null     object
dtypes: int64(1), object(44)
memory usage: 2.8+ MB
# 获得行数和列数
rows = len(house)
columns = len(house.columns)
print(rows,columns)
# 输出列的数据类型
columns_type = house.dtypes
columns_type
8121 45





序号           int64
小区名称        object
区域位置        object
经度          object
纬度          object
总价          object
单价          object
看房时间        object
链家编号        object
关注度         object
房屋户型        object
所在楼层        object
建筑面积        object
户型结构        object
套内面积        object
建筑类型        object
房屋朝向        object
建筑结构        object
装修情况        object
梯户比例        object
配备电梯        object
挂牌时间        object
交易权属        object
上次交易        object
房屋用途        object
房屋年限        object
产权所属        object
抵押信息        object
房本备件        object
房源核验统一编码    object
查询房管备案记录    object
核心卖点        object
小区介绍        object
周边配套        object
税费解析        object
用水类型        object
用电类型        object
燃气价格        object
户型介绍        object
适宜人群        object
装修描述        object
售房详情        object
交通出行        object
别墅类型        object
权属抵押        object
dtype: object
# 为了显示中文
from pylab import mpl
mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False
# 通过上述info信息我们发现有数据的缺失值,在此我们统计一下缺失情况:
missing_values = house.isnull().sum()
print(missing_values)
# 通过可视化展现为:
import missingno as msno
msno.matrix(house,figsize = (15,5), labels=True)
序号             0
小区名称           0
区域位置           0
经度             0
纬度             0
总价             0
单价             0
看房时间           0
链家编号           0
关注度            0
房屋户型           2
所在楼层           0
建筑面积           0
户型结构         359
套内面积           2
建筑类型         359
房屋朝向           0
建筑结构           2
装修情况           2
梯户比例         359
配备电梯         359
挂牌时间           0
交易权属           0
上次交易           0
房屋用途           0
房屋年限           0
产权所属           0
抵押信息           0
房本备件           0
房源核验统一编码       0
查询房管备案记录     377
核心卖点         374
小区介绍        2922
周边配套        3163
税费解析        7300
用水类型        6873
用电类型        6873
燃气价格        7737
户型介绍        5731
适宜人群        6685
装修描述        7501
售房详情        7767
交通出行        7921
别墅类型        7763
权属抵押        8100
dtype: int64





<Axes: >


[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BpE9p5oJ-1684846070283)(output_5_2.svg)]

msno.bar(house,figsize = (15,5))  # 条形图显示
<Axes: >


[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WXSYTvWn-1684846070285)(output_6_1.svg)]

数据清洗:

这一步的数据处理,主要是我们在上一步骤中发现的数据集问题:缺失值问题。实际业务中,数据清洗,往往比这麻烦的多,是一项复杂且繁琐的工作(用过excel清洗数据的都知道~),在网上看到,有人说一个分析项目80%的时间都是在清洗数据数据,不无道理。清洗的目的有两个,第一是通过清洗让数据可用。第二是让数据变的更适合进行后续的分

《应用R进行空间数据分析第二版》(Applied Spatial Data Analysis with R Second)是一本关于如何使用R语言进行空间数据分析的书籍。该书的作者是Bivand、Pebesma和Gomez-Rubio,该书的第二版是对第一版的全面更新和扩展。 这本书提供了一种使用R语言分析和可视化空间数据的完整指南。它涵盖了从基本的R语言知识和空间数据概念入门到高级的分析方法。书中使用了丰富的实例和数据集,以帮助读者更好地理解和应用所学内容。 该书的内容主要包括以下方面: 1. R语言和空间数据基础知识:介绍R语言的基本语法和操作,以及空间数据的基本概念和表示方法。 2. 空间数据可视化:使用R语言绘制地图和空间图,以展示和分析空间数据。 3. 空间数据的统计分析:介绍如何使用R语言进行空间数据的统计分析,包括空间插值、空间自相关和空间回归等方法。 4. 空间数据模型和预测:介绍使用R语言拟合空间数据模型和进行空间数据的预测和模拟方法。 5. 其他常见的空间数据分析方法:包括地理加权回归、空间聚类和空间交互等方法。 这本书适合想要学习如何使用R语言进行空间数据分析的学生、研究人员和专业人士。读者需要具备一定的R语言和统计学基础,但不需要具备空间数据分析方面的专业知识。它是学习和实践空间数据分析的理想教材,也可以作为研究和工作中的参考手册。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值