python机器学习——加州房价模型验证
利用平均绝对误差(也叫做MAE)评估
学习内容:
1、 什么是模型验证
你会想要评估你曾经建立的几乎每一个模型。
在大多数(尽管不是所有)应用中,模型质量的相关度量是预测精度。
有许多度量方法可以用来总结模型的质量,但是我们将从一个叫做平均绝对误差(也叫做MAE)的度量方法开始。
2、 读取数据+设预测目标+设特征
# 数据经度、纬度、住房年龄中位、一个街区内的总房屋数、一个街区内的总卧室数、
# 人口、家庭总数、收入中位数、房屋价值中位数、是否近海
# 一个街区内的总卧室数有部分缺失值
import pandas as pd
from sklearn.tree import DecisionTreeRegressor
house_file_path = 'Datasets\California Housing Prices\housing.csv'
house_data = pd.read_csv(house_file_path)
# 过滤有缺失值的行
filtered_house_data = house_data.dropna(axis=0)
# 将房屋价格中位数设置为预测目标y
house_predict = ['median_house_value']
y = filtered_house_data[house_predict]
# 设置特征为x(特征:影响目标的因素)
house_features = ['housing_median_age','total_rooms','tot