python对杭州二手房数据分析
该数据集来自网络公开数据,python语言,在数据分析方面,作为一柄利器,涵盖了“数据获取→数据处理→数据分析→数据可视化”这个流程中每个环节。
环境搭建:
环境:win10+Anaconda +jupyter Notebook
库:Numpy,pandas,matplotlib,seaborn ,missingno,各种包的管理和安装主要利用conda和pip。
数据集:杭州二手房信息样本
探索问题:
要探索的问题有: 1、二手房区域位置特点 2、总价等差间距中房数占比、总价在各区域中的平均值 3、单价等差间距房数占比、单价在各区域的平均值 4、看房时间可视化 6、关注度特点分析 7、楼层高低分析 8、户型结构分析 9、建筑类型 10、朝向分析 11、建筑结构 12、是否有电梯分析 13、用途分析 14、核心卖点词云分析
# 导入需要的数据库 import pandas as pd import numpy as np import seaborn as sns sns.set() import matplotlib.pyplot as plt # 设置配置输出高清矢量图: %config InlineBackend.figure_format = 'svg' %matplotlib inline # 使用pandas进行数据读入和分析: house = pd.read_csv("C:/Users/EVILLIFES/Desktop/接单/Secondhand_house.csv",encoding='gbk') # 输出主要信息: house.info()
<class 'pandas.core.frame.DataFrame'> RangeIndex: 8121 entries, 0 to 8120 Data columns (total 45 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 序号 8121 non-null int64 1 小区名称 8121 non-null object 2 区域位置 8121 non-null object 3 经度 8121 non-null object 4 纬度 8121 non-null object 5 总价 8121 non-null object 6 单价 8121 non-null object 7 看房时间 8121 non-null object 8 链家编号 8121 non-null object 9 关注度 8121 non-null object 10 房屋户型 8119 non-null object 11 所在楼层 8121 non-null object 12 建筑面积 8121 non-null object 13 户型结构 7762 non-null object 14 套内面积 8119 non-null object 15 建筑类型 7762 non-null object 16 房屋朝向 8121 non-null object 17 建筑结构 8119 non-null object 18 装修情况 8119 non-null object 19 梯户比例 7762 non-null object 20 配备电梯 7762 non-null object 21 挂牌时间 8121 non-null object 22 交易权属 8121 non-null object 23 上次交易 8121 non-null object 24 房屋用途 8121 non-null object 25 房屋年限 8121 non-null object 26 产权所属 8121 non-null object 27 抵押信息 8121 non-null object 28 房本备件 8121 non-null object 29 房源核验统一编码 8121 non-null object 30 查询房管备案记录 7744 non-null object 31 核心卖点 7747 non-null object 32 小区介绍 5199 non-null object 33 周边配套 4958 non-null object 34 税费解析 821 non-null object 35 用水类型 1248 non-null object 36 用电类型 1248 non-null object 37 燃气价格 384 non-null object 38 户型介绍 2390 non-null object 39 适宜人群 1436 non-null object 40 装修描述 620 non-null object 41 售房详情 354 non-null object 42 交通出行 200 non-null object 43 别墅类型 358 non-null object 44 权属抵押 21 non-null object dtypes: int64(1), object(44) memory usage: 2.8+ MB
# 获得行数和列数 rows = len(house) columns = len(house.columns) print(rows,columns) # 输出列的数据类型 columns_type = house.dtypes columns_type
8121 45
序号 int64 小区名称 &