python 基于xgboost预测波士顿房价

原创

已于 2024-06-28 15:44:07 修改 · 5.9k 阅读

117 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言

于 2022-11-18 17:34:51 首次发布

一、意义

这是一个机器学习练习项目，旨在熟悉xgboost的建模过程和数据分析的思路，目标数据选取sklearn自带数据集——波士顿房价

二、开始

1. 导入要用的库

from sklearn.datasets import load_boston
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn import preprocessing, metrics, model_selection
import xgboost as xgb
import warnings
warnings.filterwarnings("ignore")

2. 组装数据

data_boston = load_boston()  # 特征数据
clo_names = list(data_boston.feature_names)  # 获取特征数据名字
data_dst = data_boston.target  # 标签数据
# 把所有数据组装到 DataFrame 里，方便后续数据分析
df = pd.DataFrame(load_boston().data)
for i, n in enumerate(clo_names):
    print(i, n)
    df.rename(columns={
   
   i: n}, inplace=True)  # 重命名列名 数字索引 >>> 特征名
df.loc[:, 'MEDV'] = data_dst  # 最后一列加入标签数据
print(df.head())

df 数据现在是这样
df数据现在是这样

3. 分析数据

数据分析的过程比较主观，目的就是充分了解数据，为后面的特征工程和建模提供一定的依据

df.info()

检查数据
通过观察，当前数据无缺损值，不需要填补数据
下面就可以根据自己所想任意分析了
这里先看看房价数据（MEDV）的分布情况

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams

最低0.47元/天解锁文章

5 条评论

Aim_python_CNN 2023.09.23
你好为什么我用您的这个代码最后这个特征重要性运行的时候报错无法打印特征图

Zara_10Z 2023.07.24
好像现在的sklearn库里面没有boston了要怎么解决呢
- innsy回复Zara_10Z 2023.07.25
  可以装一个scikit-learn的1.1.2版本，1.2版本以后去掉了

逐光过山车 2022.12.01
作者可以提供源代码吗[face]emoji:045.png[/face]
- 娃要大红花回复逐光过山车 2022.12.06
  你把我贴的代码，整合起来就是源码