Kaggle房价预测：数据探索——练习

最新推荐文章于 2025-07-18 09:38:26 发布

qilixuening

最新推荐文章于 2025-07-18 09:38:26 发布

阅读量8.2k

点赞数 6

CC 4.0 BY-SA版权

分类专栏：自学练习文章标签： Kaggle Pandas Seaborn 房价预测数据探索

本文链接：https://blog.youkuaiyun.com/qilixuening/article/details/75151026

这篇博客主要探讨Kaggle房价预测问题的数据探索过程。使用Pandas和Seaborn库，作者分析了数据集的特征，包括查看数据布局、统计信息、直方图、散点图和相关性。通过观察，发现房价分布不符合正态分布，并展示了如何通过散点图和箱形图揭示数值型变量的有序性。此外，还介绍了如何绘制特征之间的关系矩阵图和协方差矩阵，以发现高度相关的特征。

主要借鉴了Kaggle基础问题——房价预测的两篇教程Comprehensive data exploration with Python和House Prices EDA并进行总结。

本篇，主要进行数据探索，对数据的基本特征有一个全局的大致了解。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.model_selection import train_test_split
import seaborn as sns
from scipy.stats import norm
from scipy import stats
%matplotlib inline

首先，我们拿到了数据集的csv文件，可以直接利用pandas导入得到DataFrame数据：

df_train = pd.read_csv(r'E:\kaggle\house_price_regression\train.csv')

与 numpy 的ndarray数据相比，DataFrame数据自带有行列信息，且有很多便捷的方法可以直接进行快速分析。

例如，可以查看数据的基本布局信息。

df_train.head()  # 可以查看（默认）前5行数据信息
# df_train.tail()  # 可以查看后10行数据信息

	Id	MSSubClass	MSZoning	LotFrontage	LotArea	Street	Alley	LotShape	LandContour	Utilities	…	PoolQC	Fence	MiscFeature	MiscVal	MoSold	YrSold	SaleType	SaleCondition	SalePrice
0	1	60	RL	65.0	8450	Pave	NaN	Reg	Lvl	AllPub	…	NaN	NaN	NaN	0	2	2008	WD	Normal	208500
1	2	20	RL	80.0	9600	Pave	NaN	Reg	Lvl	AllPub	…	NaN	NaN	NaN	0	5	2007	WD	Normal	181500
2	3	60	RL	68.0	11250	Pave	NaN	IR1	Lvl	AllPub	…	NaN	NaN	NaN	0	9	2008	WD	Normal	223500
3	4	70	RL	60.0	9550	Pave	NaN	IR1	Lvl	AllPub	…	NaN	NaN	NaN	0	2	2006	WD	Abnorml	140000
4	5	60	RL	84.0	14260	Pave	NaN	IR1	Lvl	AllPub	…	NaN	NaN</