线性回归模型&成本函数
线性回归模型
简介
线性回归模型属于回归模型的一种,具备一个输入变量的线性模型叫做单变量回归模型
案例
依旧是房子面积&价格坐标轴的例子,随着房子的面积房屋的价格逐渐上涨,学习阶段给出当前已有数据(下图中×的点),后续基于当前已有离散坐标点绘制拟合曲线,以达到后续回归任务
成本函数
背景&存在意义
成本函数将会告诉我们模型的运行情况,以便我们尝试优化算法模型,使其结果更加准确。
原理
成本函数用来计算实际值与预估值之间的误差大小,其基本公示如下,参数解释如下:
a. m代表用来测试的数据集条数
b. y(i)(带尖帽子) 代表模型给出的预估值
c. y(i)代表实际应该输出的正确值
d. 西格玛(横着的M) 函数表示 i从一到m以此带入括号中函数加和
解惑:
- 为什么要西格玛之后在乘2M分之1?
答:M分之一也可以,主要是因为每次的测试集数量不同,用来取平均值;再除一个2是为了让结果更加整洁好看一些 - y(i)(带尖帽子) - y(i) 什么意思
答:我们来看这个图 【 y(i)(带尖帽子) - y(i)】 计算的是模型推理结果值和真实值的差距,也叫误差,平方是为了避免复数出现
eg
案例如下,左图为一个线性回归模型的拟合直线函数,为f(x) = wx,右图为该模型的成本函数J(w),也就是基于w为不同值时,函数得出的预估值与真实值的误差平均值。
图中可看出,当w常数越远离1时,误差值越大,所以得出w为1时模型准确率最高。
总结
- 线性回归类似于数学中的一个函数,f(x) = Mx+A,这只是一个例子,其中M和A为常量值,根据不同的输入得出 预估值(一般用符号y上面带个尖帽子表示)。实际函数可能更为复杂,是一个曲线甚至波浪线
- 成本函数的意义是找到线性模型中误差最小的常量参数,同时也是线性模型保证准确性的重要工具,当手中有一款线性模型时,要多尝试常量参数调整,绘制成本函数曲线,找出最优参数配比,本文中只有一个常数值w,可能你手中的模型常熟值更多,曲线会变得更有趣。