利用回归分析预测连续目标变量
1. 可视化数据集的重要特征
探索性数据分析(EDA)是训练机器学习模型前重要且推荐的第一步。在本部分,我们将使用图形 EDA 工具箱中的一些简单但有用的技术,帮助我们直观地检测异常值的存在、数据的分布以及特征之间的关系。
1.1 创建散点图矩阵
我们将创建一个散点图矩阵,以便在一处可视化数据集中不同特征之间的两两相关性。为绘制散点图矩阵,我们将使用 MLxtend 库中的 scatterplotmatrix 函数。你可以通过以下命令安装 mlxtend 包:
conda install mlxtend
或
pip install mlxtend
安装完成后,导入包并创建散点图矩阵的代码如下:
import matplotlib.pyplot as plt
from mlxtend.plotting import scatterplotmatrix
import pandas as pd
# 获取住房数据集
# 若在线链接不可用,可从本地目录加载
# df = pd.read_csv('./housing.data.txt', sep='\s+')
df = pd.read_csv(
'https://raw.githubusercontent.com/rasbt/'
'python-machine-learning-book-3rd-editio
超级会员免费看
订阅专栏 解锁全文
5万+

被折叠的 条评论
为什么被折叠?



