一、下载数据
下载并解压数据:housing.tgz
数据地址:https://github.com/ageron/handson-ml/tree/master/datasets/housing
二、读取数据
import pandas as pd
housing=pa.read_csv('./housing.csv')
三、观察数据
head()输出前5个数据和表头
info()输出每个特征的元素总个数,因此可以查看特征是否存在缺失值。还可以查看类型及内存占用情况。
value_counts()统计特征中每个元素的总个数
describe()可以查看实数特征的统计信息(最大值、最小值、平均值、方差、总个数、25%、50%、75%小值)
hist()输出实数域直方图
四、分开训练集和测试集
为了最终验证模型是否具有推广泛化能力,需要分开训练集于测试集,假设将数据集分为80%训练,20%测
试。下面为一种普遍的分开数据集的代码:
import numpy as np
def