一、意义
这是一个机器学习练习项目,旨在熟悉xgboost的建模过程和数据分析的思路,目标数据选取sklearn自带数据集——波士顿房价
二、开始
1. 导入要用的库
from sklearn.datasets import load_boston
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn import preprocessing, metrics, model_selection
import xgboost as xgb
import warnings
warnings.filterwarnings("ignore")
2. 组装数据
data_boston = load_boston() # 特征数据
clo_names = list(data_boston.feature_names) # 获取特征数据名字
data_dst = data_boston.target # 标签数据
# 把所有数据组装到 DataFrame 里,方便后续数据分析
df = pd.DataFrame(load_boston().data)
for i, n in enumerate(clo_names):
print(i, n)
df.rename(columns={
i: n}, inplace=True) # 重命名列名 数字索引 >>> 特征名
df.loc[:, 'MEDV'] = data_dst # 最后一列加入标签数据
print(df.head())
df 数据现在是这样
3. 分析数据
数据分析的过程比较主观,目的就是充分了解数据,为后面的特征工程和建模提供一定的依据
df.info()
通过观察,当前数据无缺损值,不需要填补数据
下面就可以根据自己所想任意分析了
这里先看看房价数据(MEDV)的分布情况
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
plt.rcParams