机器学习实战:基于Scikit-Learn和TensorFlow—第二章笔记
一、学习目标
以加州住房价格的数据集作为数据源,来进行构建一个完整的机器学习的项目。
二、完整的处理流程
2.1、目标问题
拿到数据集,搭建机器学习的项目,我们肯定是希望从这个数据中分析出什么结果。所以我们的目标就是:根据数据集,对一个区域的房价中位数进行预测。你肯定知道这是一个典型的监督式学习任务(因为已经给出了标记的训练示例),而且也是一个典型的回归任务(因
为你要对某个值进行预测)。更具体地说,这是一个多变量回归问题,因为系统要使用多个特征进行预测(使用到区域的人口、收入中位数等)。
2.2、性能指标
你辛苦构建完模型后,肯定要选择一个指标来测试下你的模型到底表现如何吧。回归问题的典型性能衡量指标是均方根误差(RMSE)。
公式1-1:均方根误差(RMSE)