新加坡房价预测模型构建

原创

已于 2022-06-25 10:34:50 修改 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2022-06-24 18:08:53 首次发布

2022年6月24日开始动手第二个实验

课件下载链接：

https://pan.baidu.com/s/1BukfQOdt22pno6yETPfCNg 提取码：1n2s

数据集链接：

http://idatascience.cn/dataset-detail?table_id=101047

爱数课实验链接：

http://idatacourse.cn/case-run?id=12735&token=36ce4ac6c08ea9c786caf145af4fa2be

数据来源于新加坡的爱彼迎民宿数据，数据共计7907条，16个字段。本次实验我们通过Python的绘图库对数据集进行可视化分析，查看特征的取值分布以及特征之间的关系。构建回归模型，根据民宿的经度、纬度、房屋类型、行政区划等特征对民宿价格进行预测。各数据字段含义如下表所示：

列名	含义
id	房间编号
name	房间名称
host_id	房东编号
host_name	房东名称
neighbourhood_group	所属区域组
neighbourhood	行政区划
latitude	纬度
longitude	经度
room_type	房间类型（整套、独立房间、合租）
price	价格
minimum_nights	最少住几晚
number_of_reviews	评论数
last_review	上一次评论时间
reviews_per_month	平均每月评论数
calculated_host_listings_count	房东拥有的可出租房屋数
availability_365	一年内可租用天数

首先将数据加载进来，对数据有一定了解。

flat_data = pd.read_csv('D:/newStudent/data/test2/新加坡房价数据集.csv')
print(flat_data.shape)
print(flat_data.head(6))

使用Pandas中的read_csv()函数可以读取csv文件，结果会保存为一个DataFrame或Series对象，通过调用DataFrame或Series对象的shape方法查看数据集大小，调用head()方法查看前n行数据，默认为5。

运行结果

值得注意的是在开头要加入一下代码来延长终端的输出长度，防止出现省略号

import pandas as pd


pd.set_option('display.max_columns',1000)
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth',1000)

通过调用DataFrame对象的info()方法打印DataFrame对象的摘要，包括列的数据类型dtype、名称以及有无缺失值，数据框的维度以及占用的内存等信息。

flat_data.info()

数据集房间名称name，上次评论时间last_review，平均每月的评论数

1 条评论