6、机器学习项目实战：从系统设计到数据探索-优快云博客

本文链接：https://blog.youkuaiyun.com/table/article/details/152288170

机器学习项目实战：从系统设计到数据探索

1. 系统设计基础

在开始设计系统之前，需要明确几个关键问题：
- 模型所需的训练监督类型：是监督学习、无监督学习、半监督学习、自监督学习还是强化学习任务？
- 任务类型：是分类任务、回归任务还是其他类型？
- 学习技术：应使用批量学习还是在线学习技术？

经过分析，这是一个典型的监督学习任务，因为模型可以使用带标签的示例进行训练，每个实例都有预期输出，即该地区的房屋中位数价格。同时，这也是一个回归任务，具体来说是多元单变量回归问题，系统将使用多个特征（如地区人口、中位数收入等）来预测每个地区的单个值（房屋中位数价格）。由于没有连续的数据流进入系统，不需要快速适应变化的数据，且数据量较小可以放入内存，因此普通的批量学习就足够了。如果数据量巨大，可以使用MapReduce技术将批量学习工作分布到多个服务器上，或者使用在线学习技术。

2. 性能指标选择

对于回归问题，典型的性能指标是均方根误差（RMSE），它能反映系统预测的典型误差，对大误差给予更高的权重。其计算公式如下：
[RMSE(X, h) = \sqrt{\frac{1}{m} \sum_{i = 1}^{m} (h(x^{(i)}) - y^{(i)})^2}]
其中涉及的常见机器学习符号含义如下：
|符号|含义|示例|
| ---- | ---- | ---- |
|m|测量RMSE的数据集实例数量|若在2000个地区的验证集上评估RMSE，则m = 2000|
|x(i)|数据集中第i个实例的所有特征值（不包括标签）向量|若第一个地区位于经度 -118.29°，纬度33