6、机器学习项目实战:从系统设计到数据探索

机器学习项目实战:从系统设计到数据探索

1. 系统设计基础

在开始设计系统之前,需要明确几个关键问题:
- 模型所需的训练监督类型:是监督学习、无监督学习、半监督学习、自监督学习还是强化学习任务?
- 任务类型:是分类任务、回归任务还是其他类型?
- 学习技术:应使用批量学习还是在线学习技术?

经过分析,这是一个典型的监督学习任务,因为模型可以使用带标签的示例进行训练,每个实例都有预期输出,即该地区的房屋中位数价格。同时,这也是一个回归任务,具体来说是多元单变量回归问题,系统将使用多个特征(如地区人口、中位数收入等)来预测每个地区的单个值(房屋中位数价格)。由于没有连续的数据流进入系统,不需要快速适应变化的数据,且数据量较小可以放入内存,因此普通的批量学习就足够了。如果数据量巨大,可以使用MapReduce技术将批量学习工作分布到多个服务器上,或者使用在线学习技术。

2. 性能指标选择

对于回归问题,典型的性能指标是均方根误差(RMSE),它能反映系统预测的典型误差,对大误差给予更高的权重。其计算公式如下:
[RMSE(X, h) = \sqrt{\frac{1}{m} \sum_{i = 1}^{m} (h(x^{(i)}) - y^{(i)})^2}]
其中涉及的常见机器学习符号含义如下:
|符号|含义|示例|
| ---- | ---- | ---- |
|m|测量RMSE的数据集实例数量|若在2000个地区的验证集上评估RMSE,则m = 2000|
|x(i)|数据集中第i个实例的所有特征值(不包括标签)向量|若第一个地区位于经度 -118.29°,纬度33

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值