目的
本案例得目标主要对数据集中的特征进行量化分析,并且通过图形可视化进行展示出来。项目数据来源于链家北京二手房数据。
数据预处理
首先导入分析过程中可能运用到的函数包,并读取显示前10行数据。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
from IPython.display import display
%matplotlib inline
lianjia_df=pd.read_csv('lianjia.csv')
lianjia_df.head(10)
前10行数据结果显示如下所示
然后对数据的基本信息进行查看
lianjia_df.index
lianjia_df.columns
lianjia_df.info()
以上三条代码分别显示如下
再对数据进行描述性统计
lianjia_df.describe()
新建特征PerPrice,其值等于房价除以面积,并显示前10行数据
df=lianjia_df.copy()
df['PerPrice']=lianjia_df['Price']/lianjia_df['Size']
df[:10]