2022年6月24日开始动手第二个实验
课件下载链接:
https://pan.baidu.com/s/1BukfQOdt22pno6yETPfCNg 提取码:1n2s
数据集链接:
http://idatascience.cn/dataset-detail?table_id=101047
爱数课实验链接:
http://idatacourse.cn/case-run?id=12735&token=36ce4ac6c08ea9c786caf145af4fa2be
1、数据准备
1.1 数据集介绍
数据来源于新加坡的爱彼迎民宿数据,数据共计7907条,16个字段。本次实验我们通过Python的绘图库对数据集进行可视化分析,查看特征的取值分布以及特征之间的关系。构建回归模型,根据民宿的经度、纬度、房屋类型、行政区划等特征对民宿价格进行预测。各数据字段含义如下表所示:
| 列名 | 含义 |
|---|---|
| id | 房间编号 |
| name | 房间名称 |
| host_id | 房东编号 |
| host_name | 房东名称 |
| neighbourhood_group | 所属区域组 |
| neighbourhood | 行政区划 |
| latitude | 纬度 |
| longitude | 经度 |
| room_type | 房间类型(整套、独立房间、合租) |
| price | 价格 |
| minimum_nights | 最少住几晚 |
| number_of_reviews | 评论数 |
| last_review | 上一次评论时间 |
| reviews_per_month | 平均每月评论数 |
| calculated_host_listings_count | 房东拥有的可出租房屋数 |
| availability_365 | 一年内可租用天数 |
1.2 数据读取
首先将数据加载进来,对数据有一定了解。
flat_data = pd.read_csv('D:/newStudent/data/test2/新加坡房价数据集.csv')
print(flat_data.shape)
print(flat_data.head(6))
使用Pandas中的read_csv()函数可以读取csv文件,结果会保存为一个DataFrame或Series对象,通过调用DataFrame或Series对象的shape方法查看数据集大小,调用head()方法查看前n行数据,默认为5。
运行结果

值得注意的是在开头要加入一下代码来延长终端的输出长度,防止出现省略号
import pandas as pd
pd.set_option('display.max_columns',1000)
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth',1000)
通过调用DataFrame对象的info()方法打印DataFrame对象的摘要,包括列的数据类型dtype、名称以及有无缺失值,数据框的维度以及占用的内存等信息。
flat_data.info()

数据集房间名称name,上次评论时间last_review,平均每月的评论数

最低0.47元/天 解锁文章
1万+





