端到端机器学习项目
本章,你将扮演一个新入职的房地产行业的数据分析专家,完成一个端到端的项目。主要的步骤有:
- 对问题进行宏观的分析
- 获取数据
- 观察、发现数据中的细节
- 为机器学习算法准备数据
- 选择并训练一个模型
- 微调模型
- 提交解决方案
- 上线、监测和维护系统
玩真的
搞机器学习,最好使用真实的数据。幸运的是,有数千个开放的数据库可供我们选择,涵盖了各行各业。本章我们选择加州的房价数据库作为练习数据。此数据库是基于1990的加州人口调查的结果。为了便于讲解,对数据进行了一些裁剪,增加了一个分类属性,删除了一些属性。

图2-1 加州房价