本文用到的美国房屋数据:
链接:https://pan.baidu.com/s/1wrkzFF87A_Emgid_s7K3aA
提取码:2j77内含两个文件:
data_train.csv:训练集数据,包含房价等81个指标;
data_test.csv:测试集数据,不包含房价;
文章目录
前言
本篇文章研究的是影响房价的因素,数据是美国房屋数据,主要是通过分析各项指标的相关性,得出结论。
下一篇文章将是关于房价预测的相关内容。
一、数据预览
导入包:
import warnings
warnings.filterwarnings('ignore')
import numpy as np
import pandas as pd
import math
from scipy import stats
from scipy.stats import norm
import seaborn
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
%matplotlib inline
导入数据:
df_train = pd.read_csv('./data/data_train.csv',encoding='gbk')
df_train
显示81个指标,分别为住宅类型、地下室面积、屋顶类型、卧室数……
房价数据的分布:
打印各分位数和均值标准差,画出图像;
print(df_train['房价'].describe())
print("\nSkewness: %f" % df_train['房价'].skew())
print("Kurtosis: %f" % df_train['房价'].kurt())
myfont&#