新加坡房价预测模型构建

2022年6月24日开始动手第二个实验

课件下载链接:

https://pan.baidu.com/s/1BukfQOdt22pno6yETPfCNg 提取码:1n2s

数据集链接:

http://idatascience.cn/dataset-detail?table_id=101047

爱数课实验链接:

http://idatacourse.cn/case-run?id=12735&token=36ce4ac6c08ea9c786caf145af4fa2be

1、数据准备

1.1  数据集介绍

数据来源于新加坡的爱彼迎民宿数据,数据共计7907条,16个字段。本次实验我们通过Python的绘图库对数据集进行可视化分析,查看特征的取值分布以及特征之间的关系。构建回归模型,根据民宿的经度、纬度、房屋类型、行政区划等特征对民宿价格进行预测。各数据字段含义如下表所示:

列名 含义
id 房间编号
name 房间名称
host_id 房东编号
host_name 房东名称
neighbourhood_group 所属区域组
neighbourhood 行政区划
latitude 纬度
longitude 经度
room_type 房间类型(整套、独立房间、合租)
price 价格
minimum_nights 最少住几晚
number_of_reviews 评论数
last_review 上一次评论时间
reviews_per_month 平均每月评论数
calculated_host_listings_count 房东拥有的可出租房屋数
availability_365 一年内可租用天数

1.2  数据读取

首先将数据加载进来,对数据有一定了解。

flat_data = pd.read_csv('D:/newStudent/data/test2/新加坡房价数据集.csv')
print(flat_data.shape)
print(flat_data.head(6))

使用Pandas中的read_csv()函数可以读取csv文件,结果会保存为一个DataFrame或Series对象,通过调用DataFrame或Series对象的shape方法查看数据集大小,调用head()方法查看前n行数据,默认为5。

 运行结果

 值得注意的是在开头要加入一下代码来延长终端的输出长度,防止出现省略号

import pandas as pd


pd.set_option('display.max_columns',1000)
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth',1000)

通过调用DataFrame对象的info()方法打印DataFrame对象的摘要,包括列的数据类型dtype、名称以及有无缺失值,数据框的维度以及占用的内存等信息。

flat_data.info()

 

 数据集房间名称name,上次评论时间last_review,平均每月的评论数

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值