从一个小实例了解机器学习全过程(《机器学习实战》笔记)

我们通过一个机器学习的小实例来对机器学习技术进行一个初步了解。

准备工作

明确目标

该实例的目的在于通过1990年加州房子的各种特征(如经纬度、该地区收入中位数等)来预测该地区房子价格的中位数。数据集已经上传至文章的附件中(包含地区的房价中位数),很明显这是一个监督式学习任务,并且是一个回归任务。

选择性能指标

回归问题的典型性能指标是均方根误差(RMSE),它测量的是预测过程中,预测错误的标准偏差,也是下面我们使用的性能指标。下面是标准差公式:
R S E M ( X , h ) = 1 m ∑ i = 1 n ( h ( x ( i ) ) − y ( i ) ) RSEM(\bf{X},\it{h})=\sqrt{\frac{1}{m}\sum_{i=1}^{n}(h(\bf{x^{(\it{i})}})-\it{y}^{(i)})} RSEM(X,h)=m1i=1n(h(x(i))y(i))
其中 x ( i ) \bf{x^{(\it{i})}} x(i)表示特征值向量, h ( x ( i ) ) h(\bf{x^{(\it{i})}}) h(x(i))表示得到的预测值, y ( i ) y^{(i)} y(i)表示真实值。
另外我们介绍另一种性能指标:平均绝对误差(MAE),该指标适合具有较多离群数据的情况,见下面的公式:
M A E ( X , h ) = 1 m ∑ i = 1 n ∣ h ( x ( i ) ) − y ( i ) ∣ MAE(\bf{X},\it{h})=\frac{1}{m}\sum_{i=1}^{n}|h(\bf{x}^{\it(i)})-\it{y}^{(i)}| MAE(X,h)=m1i=1nh(x(i))y(i)
均方根误差和平均绝对误差都可以理解为两个向量之间的距离:预测向量和目标向量。距离或者范数的测度可能有多种:

  • 计算平方和的根(RSEM)对应欧几里得范数,成为 l 2 l_2 l2范数,记为 ∣ ∣ ⋅ ∣ ∣ 2 ||·||_{2} 2或者 ∣ ∣ ⋅ ∣ ∣ ||·||
  • 计算绝对值的总和(MAE)对应 l 1 l_1 l1范数,记为
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值