机器学习项目实战:从系统设计到数据探索
1. 系统设计基础
在开始设计系统之前,需要明确几个关键问题:
- 模型所需的训练监督类型:是监督学习、无监督学习、半监督学习、自监督学习还是强化学习任务?
- 任务类型:是分类任务、回归任务还是其他类型?
- 学习技术:应使用批量学习还是在线学习技术?
经过分析,这是一个典型的监督学习任务,因为模型可以使用带标签的示例进行训练,每个实例都有预期输出,即该地区的房屋中位数价格。同时,这也是一个回归任务,具体来说是多元单变量回归问题,系统将使用多个特征(如地区人口、中位数收入等)来预测每个地区的单个值(房屋中位数价格)。由于没有连续的数据流进入系统,不需要快速适应变化的数据,且数据量较小可以放入内存,因此普通的批量学习就足够了。如果数据量巨大,可以使用MapReduce技术将批量学习工作分布到多个服务器上,或者使用在线学习技术。
2. 性能指标选择
对于回归问题,典型的性能指标是均方根误差(RMSE),它能反映系统预测的典型误差,对大误差给予更高的权重。其计算公式如下:
[RMSE(X, h) = \sqrt{\frac{1}{m} \sum_{i = 1}^{m} (h(x^{(i)}) - y^{(i)})^2}]
其中涉及的常见机器学习符号含义如下:
|符号|含义|示例|
| ---- | ---- | ---- |
|m|测量RMSE的数据集实例数量|若在2000个地区的验证集上评估RMSE,则m = 2000|
|x(i)|数据集中第i个实例的所有特征值(不包括标签)向量|若第一个地区位于经度 -118.29°,纬度33
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



