Predicting house prices: a regression example
波士顿房价数据集
本节将要预测 20 世纪 70 年代中期波士顿郊区房屋价格的中位数,已知当时郊区的一些数据点,比如犯罪率、当地房产税率等。本节用到的数据集与前面两个例子有一个有趣的区别。它包含的数据点相对较少,只有 506 个,分为 404 个训练样本和 102 个测试样本。输入数据的每个特征(比如犯罪率)都有不同的取值范围。例如,有些特性是比例,取值范围为 0~1;有的取值范围为 1~12;还有的取值范围为 0~100,等等。
(由于是在Jupyter Notebook上直接copy下来的,所以使用时请记得注意。)
## 1. 加载波士顿房价数据集
from tensorflow.keras.datasets import boston_housing
(train_data, train_targets), (test_data, test_targets) = boston_housing.load_data()
train_data.shape
train_targets.shape
train_targets
test_data.shape
test_targets.shape
## 2. 数据标准化
#如果量纲不一致,最好对输入向量进行标准化,此处采用减去均值除以标准差。
#即对于输入数据的每个特征(输入数据矩阵中的列),减去特征平均值,再除以标准差,这样得到的特征平均值为0,标准差为1。
mean = train_data.mean(axi