吴恩达机器学习笔记复盘(五)均方误差函数

只讲了线性回归的代价函数。

均方误差(Mean Squared Error, MSE)

均方误差(MSE)基于最小二乘法,通过计算预测值与真实值之间差值的平方的平均值来衡量模型的误差。

原理

假设我们有一组数据集\{(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\},其中x_i是第i个样本的特征向量,y_i是对应的真实值,我们的模型对x_i的预测值为\hat{y}_i。 我们的目标是找到一个函数f(x)(即模型),使得预测值\hat{y}_i = f(x_i)尽可能接近真实值y_i。为了衡量这种接近程度,我们定义误差函数e_i = y_i - \hat{y}_i,它表示第i个样本的预测误差。

为了得到一个总体的误差衡量指标,我们考虑将所有样本的误差进行综合。如果直接对误差求和\sum_{i = 1}^{n}e_i=\sum_{i = 1}^{n}(y_i - \hat{y}_i),由于误差有正有负,可能会相互抵消,不能准确反映总体的误差情况。 为了避免这种正负抵消的问题,我们对误差进行平方,得到e_i^2=(y_i - \hat{y}_i)^2。平方后的误差都是非负的,这样就可以将所有样本的误差平方相加,得到总的误差平方和SSE=\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2。 然而,SSE的值会受到样本数量n的影响,样本数量越多,SSE通常会越大,不利于不同数据集或不同模型之间的比较。为了消除样本数量的影响,我们对SSE求平均,得到均方误差MSE=\frac{1}{n}\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2。 通过最小化MSE,我们可以找到最优的模型参数,使得模型的预测结果在整体上尽可能接近真实值。

在数学上,可以通过对MSE关于模型参数求偏导数,并令偏导数为零,来求解使\(MSE\)最小的参数值。这就是均方误差的原理及求证过程。为了方面求导,MSE公式会转为 MSE=\frac{1}{2n}\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2

简化模型

令fW​(X)=WX(即B=0),此时目标是找到使J(W)最小的W值。分别分析不同W取值时的情况:

  • 当W=1时,函数fW​(X)是斜率为1的直线,对于训练集中的三个点(1,1)、(2,2)、(3,3),f(Xi​)=Yi​,误差为0,代入成本函数J(W)计算得J(1)=0。
  • 当W=0.5时,f(X)是斜率为0.5的直线。分别计算三个训练样本的平方误差并求和得3.5,再乘以2m1​(m=3),得出J(0.5)=63.5​ 。
  • 当W=0时,f(X)是水平线,计算得J(0)=61​×14≈2.33 。
  • 当W=−0.5时,f(X)是向下倾斜直线,此时代价更高约为5.25。

这里可以得出第一种情况误差最小。但至今为止这里只是代入验证,并非求解。求解会引入另外一个问题 - 梯度下降。

理解

线性回归用数学来解释是,有函数f(x) = wx+b,求一个合适的w数值能满足给定数据集的最小误差。

即线性回归模型为fW,B​(X)=WX+B,通过选择合适的W和B使直线拟合训练数据,代价函数J(W,B)衡量模型预测与真实值差异,目标是最小化J(W,B) = MSE=\frac{1}{2n}\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2

函数f(x)是根据数据集预测未来数值的函数,而J(w,b)是用来计算得出误差的最小情况的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值