2022年6月24日开始动手第二个实验
课件下载链接:
https://pan.baidu.com/s/1BukfQOdt22pno6yETPfCNg 提取码:1n2s
数据集链接:
http://idatascience.cn/dataset-detail?table_id=101047
爱数课实验链接:
http://idatacourse.cn/case-run?id=12735&token=36ce4ac6c08ea9c786caf145af4fa2be
1、数据准备
1.1 数据集介绍
数据来源于新加坡的爱彼迎民宿数据,数据共计7907条,16个字段。本次实验我们通过Python的绘图库对数据集进行可视化分析,查看特征的取值分布以及特征之间的关系。构建回归模型,根据民宿的经度、纬度、房屋类型、行政区划等特征对民宿价格进行预测。各数据字段含义如下表所示:
列名 | 含义 |
---|---|
id | 房间编号 |
name | 房间名称 |
host_id | 房东编号 |
host_name | 房东名称 |
neighbourhood_group | 所属区域组 |
neighbourhood | 行政区划 |
latitude | 纬度 |
longitude | 经度 |
room_type | 房间类型(整套、独立房间、合租) |
price | 价格 |
minimum_nights | 最少住几晚 |
number_of_reviews | 评论数 |
last_review | 上一次评论时间 |
reviews_per_month | 平均每月评论数 |
calculated_host_listings_count | 房东拥有的可出租房屋数 |
availability_365 | 一年内可租用天数 |
1.2 数据读取
首先将数据加载进来,对数据有一定了解。
flat_data = pd.read_csv('D:/newStudent/data/test2/新加坡房价数据集.csv')
print(flat_data.shape)
print(flat_data.head(6))
使用Pandas中的read_csv()
函数可以读取csv
文件,结果会保存为一个DataFrame或Series对象,通过调用DataFrame或Series对象的shape
方法查看数据集大小,调用head()
方法查看前n行数据,默认为5。
运行结果
值得注意的是在开头要加入一下代码来延长终端的输出长度,防止出现省略号
import pandas as pd
pd.set_option('display.max_columns',1000)
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth',1000)
通过调用DataFrame对象的info()
方法打印DataFrame对象的摘要,包括列的数据类型dtype、名称以及有无缺失值,数据框的维度以及占用的内存等信息。
flat_data.info()
数据集房间名称name
,上次评论时间last_review
,平均每月的评论数reviews_per_month
三个字段有缺失值的存在,所以需要对缺失值进行处理。
#查看评论数、上次评论时间、平均每月评论数三列
print(flat_data[['number_of_reviews','last_review','reviews_per_month']])
运行结果
可以看到上次评论时间last_review
,平均每月的评论数reviews_per_month
两个字段之所以有缺失值是因为评论数为0,即没有评论。在建模前进行数据预处理时,可以删除上次评论时间last_review
这一列,对平均每月的评论数reviews_per_month
缺失值用0进行填充。
2 统计和可视化
2.1 每个分类特征的数量柱状图
使用Seaborn中的barplot()
函数绘制柱状图,展示每个分类特征的数量
# 每个分类特征的数量柱状图
plt.figure(figsize=(8, 5))
# 可视化每个分类特征的数量
count_uniq = []
columns = ['neighbourhood_group', 'neighbourhood', 'room_type']
for column in columns:
# 统计这三个字段不同值的数量
count_uniq.append(flat_data[column].nunique())
print(count_uniq)
sns.barplot(x=columns, y=count_uniq, palette='Set3')
plt.title('每个分类特征数量柱状图')
plt.show()
运行结果
2.2 价格分布直方图
下面使用Seaborn中的distplot()
函数绘制直方图,展示价格的分布情况
# 价格分布直方图
plt.figure(figsize=(8,5))
sns.distplot(flat_data["price"]) # 直方图
plt.title('价格分布直方图')
plt.show()
整体来看,价格分布在0到10000之间,但房价在1000到10000之间的房间数量极少,房屋价格绝大部分都在1000以下。
2.3 查看不同房型的房屋数量
下面使用Seaborn中的countplot()
函数绘制柱状图,展示不同房型的房屋数量
# 柱状图,展示不同房型的房屋数量
plt.figure(figsize=(8,5))
sns.countplot(flat_data['room_type'],palette='Set2')
plt.title('不同房型房屋数量')
plt.show()
数量最多的房型是整租,其次是独立房间的房型,最少的是合租的房型。整租和独立房间两种房型占比较大,可能更受欢迎,合租的房间数量最少。
2.4 房屋的区域分布柱状图
下面使用Seaborn中的countplot()
函数绘制柱状图,展示房屋的区域分布
# 柱状图,展示房屋的区域分布
plt.figure(figsize=(8,5))
sns.countplot(flat_data["neighbourhood_group"])
plt.title('房屋的区域分布柱状图')
plt.show()
从上图结果可以看出更多的房子位于中心地区,其次是西部地区、东部地区、东北部地区,北部地区的房间数量最少。
2.5 不同区域房屋类型分组柱状图
下面使用Seaborn中的countplot()
函数绘制柱状图,展示不同区域的房屋类型
#柱状图,展示不同区域的房屋类型
plt.figure(figsize=(8,5))
sns.countplot(data = flat_data,x='room_type',hue='neighbourhood_group')
plt.title('不同区域房屋类型分组柱状图')
plt.show()
中心地区整租的房屋数量最多,其他地区独立房间的房型最多,绝大多数的合租的房型分布在中部地区,可能是由于中心地区房价较高等原因。
2.6 不同地区房价箱线图
下面使用Seaborn中的boxplot()
函数绘制箱线图,展示不同地区房价情况
plt.figure(figsize=(8,5))
sns.boxplot(x = 'neighbourhood_group',
y = 'price',
data = flat_data[flat_data['price']<=500] #取价格在500以内的房子进行分析
)
plt.title('不同地区房价箱线图')
plt.show()
从箱线图中观察到:中心区域的房子价格分布更为广泛,价格的均值也高于其他位置。北部地区的平均价格最低。
2.7 房屋类型与价格关系箱线图
下面使用Seaborn中的boxplot()
函数绘制箱线图,展示房屋类型与价格的关系
# 箱线图,展示房屋类型与价格的关系
plt.figure(figsize=(8,5))
sns.boxplot(x = 'room_type',
y = 'price',
data = flat_data[flat_data['price']<=500] #取价格在500以内的房子进行分析
)
plt.title('房屋类型与价格关系箱线图')
plt.show()
整租类型的房屋价格分布区见更广,并且价格均值高于其他两种类型,合租的房型平均价格最低。
2.8 房屋经纬度分布散点图
下面使用Seaborn中的scatterplot()
函数绘制散点图,展示房屋经纬度分布的情况
# 散点图,展示房屋经纬度分布的情况
plt.figure(figsize=(10,7))
#x轴为经度值,y轴为纬度值
sns.scatterplot(flat_data['longitude'],flat_data['latitude'],
hue=flat_data['neighbourhood_group'])
plt.title('房屋经纬度分布散点图')
plt.show()
橙色部分为中心地区的房屋情况,绿色为东部地区的房屋情况,红色为西部地区的房屋情况,紫色为东北部地区的房屋情况,蓝色为北部地区的房屋情况。中心地区的房屋数量多并且分布较为密集,北部地区的房屋数量最少并且分布也相对分散。
2.9 房屋价格分布散点图
下面使用Seaborn中的scatterplot()
函数绘制散点图,展示房屋价格的分布情况
#可视化价格
plt.figure(figsize=(10,7))
#x轴为经度值,y轴为纬度值
sns.scatterplot(flat_data['longitude'], flat_data['latitude'],
hue=flat_data['price'])
plt.title('房屋价格分布散点图')
plt.show()
价格较高的房屋大部分分布在中心地区和西部地区,东部地区、东北部地区和北部地区价格较高的房屋数量很少。
3 数据预处理
3.1 删除不需要的列
通过调用DataFrame对象的drop()
方法,并设置axis=1
,删除房间编号id
、房间名称name
、房东编号host_id
等列。
#删除一些不需要的列
flat_data = flat_data.drop(['id', 'name','host_id','host_name', 'last_review', 'neighbourhood'],
axis=1)
3.2 缺失值处理
通过调用DataFrame对象的fillna()
方法,用0
对缺失值进行填充。
#用0填充缺失的数据,即平均每月的评论数用0进行填充
flat_data = flat_data.fillna(0)
print(flat_data.isnull().sum())
3.3 数值编码
导入sklearn库中的preprocessing
模块的LabelEncoder
类
from sklearn.preprocessing import LabelEncoder
cols = ["neighbourhood_group","room_type"] #需要进行数值编码的列
for col in cols:
#使用LabelEncoder()新建一个对象,命名为le
le = LabelEncoder()
#调用fit()方法,创建特征取值与编码结果的映射
le.fit(flat_data[col])
#调用transform()方法对数据进行转换,转换为编码后的结果
flat_data[col] = le.transform(flat_data[col])
print(flat_data.head())
4 LightGBM模型构建
4.1 对数变换
对数变换是一种常用的特征工程方法,一般对于数值大于0的长尾分布数据,可以采取对数变换的方法来转换特征值,整体上减缓长尾分布这种极偏的分布状态,为低值这一端争取更多的空间,将高值这一端尽可能的压缩,使得整体分布更加合理。进而增强模型的效果。
#去掉价格为0的数据
flat_data = flat_data[flat_data['price']>0]
flat_data['price'] = np.log10(flat_data['price'])
print(flat_data.head())
输出具体描述
flat_data['price'].describe()
4.2 目标、特征划分
X = flat_data.drop('price', axis=1)
y = flat_data['price']
4.3 模型构建
import lightgbm
#新建一个LGBMRegressor()对象,命名为model
model = lightgbm.LGBMRegressor()
#设置参数
params = {'n_estimators': [10,20,30,50,100,200,500], #基学习器数量
'subsample': [0.6, 0.7, 0.8, 0.9, 1.0], #训练时采样一定比例的数据
'colsample_bytree': [0.6, 0.7, 0.8, 0.9, 1.0], #特征采样占比
'learning_rate' : [0.01,0.03,0.1,0.2,0.3], #学习率
'reg_lambda':[0,0.1,0.2,0.5,0.7,0.9,1] #L2正则化
}
#随机参数搜索
from sklearn.model_selection import RandomizedSearchCV
#新建一个RandomizedSearchCV对象
#cv:交叉验证的折数,默认为5
lgbm_search_cv = RandomizedSearchCV(model, params, cv=5, scoring='neg_mean_absolute_error')
# 对lgbm_search_cv调用fit方法,带入X,y进行训练。
lgbm_search_cv.fit(X,y)
# 通过调用best_estimator_查看最优模型。
lgbm_search_cv.best_estimator_
# 通过lgbm_search_cv.best_score_得到最好的得分即MAE值的负数,通过abs()方法得到绝对值,即模型的MAE值
abs(lgbm_search_cv.best_score_)
# 通过调用best_estimator_.feature_importances_查看各个特征的重要性。
# 特征重要性,降序排序
pd.Series(lgbm_search_cv.best_estimator_.feature_importances_, index=X.columns).sort_values(ascending=False)
#通过调用barplot()函数,绘制条形图将特征重要性进行展示
plt.figure(figsize=(8,5))
sns.barplot(x=lgbm_search_cv.best_estimator_.feature_importances_,y=X.columns,palette="Set2")
# 特征重要性首先是房屋的经度longitude,纬度latitude,两者重要性相差不大。其次是一年内可出租的天数availability_365,和房东拥有的可出租房屋数calculated_host_listings_count。特征重要性最低的是所属区域组neighbourhood_group。
# 还原为真实预测值并计算绝对误差
y_true = 10**y
y_predict = 10**(lgbm_search_cv.best_estimator_.predict(X))
absolute_error = abs(y_true.values-y_predict) #计算绝对误差
#转换成DataFrame对象
pd.DataFrame({"true":y_true, "predict": y_predict , "absolute error":absolute_error}).head()
通过调用best_estimator_
查看最优模型。
通过lgbm_search_cv.best_score_
得到最好的得分即MAE值的负数,通过abs()
方法得到绝对值,即模型的MAE值
# 特征重要性,降序排序
#通过调用barplot()函数,绘制条形图将特征重要性进行展示
特征重要性首先是房屋的经度longitude
,纬度latitude
,两者重要性相差不大。其次是一年内可出租的天数availability_365
,和房东拥有的可出租房屋数calculated_host_listings_count
。特征重要性最低的是所属区域组neighbourhood_group
。
还原为真实预测值并计算绝对误差