机器学习---监督学习之线性回归_y=w1x+w2的偏微分方程-优快云博客

分类和回归的区别：
分类，我们预测一个状态，
回归，我们预测一个值。

线性回归是：通过已有的数据，拟合出一条符合它的直线，用来预测其他可能出现的值。
如何拟合一条好的直线呢？

就是是如何使一条直线更加的靠近一个点呢？

这里的p就是坐标值的p,我们改变直线斜率的时候可以不用考虑正负问题，因为p的正负决定了斜率的正负。 $α\alpha$ 我们给他起了个名字，叫学习率。

逐个地在每个数据点应用平方（或绝对）误差，并重复这一流程很多次。叫做随机梯度下降法。
同时在每个数据点应用平方（或绝对）误差，并重复这一流程很多次。叫做批量梯度下降法。

平均绝对误差
所有点到直线垂直距离和是： $∑i=1m∣y−y^∣\sum_{i=1}^{m}|y-\hat y|$ ,
除以点的个数m，就是平均绝对误差了： $error=1m∑i=1m∣y−y^∣error=\frac 1m\sum_{i=1}^{m}|y-\hat y|$
这个公式就是我们上图的误差函数的一个具体表示，我们可以使用梯度下降的方法求得这个公式的最小值。
平方误差
为了不计算绝对值，我们采取对距离求平方的方法，使得误差函数依然能够衡量误差大小且不用求绝对值。
那么所有点到直线垂直距离和误差就被改成了： $(y−y^)2{(y-\hat y)}^2$ ,
这时除以的个数就被改为2m了（这里为什么是2m？求导所得，至于为什么求导看第6点），均方误差就为： $error=12m∑i=1m(y−y^)2error=\frac 1{2m}\sum_{i=1}^{m}{(y-\hat y)}^2$
我们依然可以使用梯度下降的方法求得这个公式的最小值。
最小化误差函数
如果看具体的例子，我们就能发现，上面讲的两个技巧方法就是平均绝对误差和均方误差的一个特例。他们讲的是同一个东西。具体推到过程可以自己尝试。
绝对值误差 VS 平方误差
有时候只用一种误差计算方法是判断不出来误差好坏的，如下图所示

在这里插入图片描述
这幅图的平均绝对误差ABC三条直线都一样，但是计算其平方误差时，发现B的平方误差较小。因为均方误差是个2次函数。

高纬度
当输入的数据有两个，输出结果为一个时，我们在进行预测的时候就不是直线的关系了，绘出图来就是三维的，两个输入一个输出，预测的方程也由直线方程变为了平面方程。有三个可变参数。
同理，更高维的输入输出我们或许用图形表示不了，但依然可以用公式表示。
解方程
知道方程之后，我们就可以用对方程求偏导的方式求得最值了。
此时使用方程求解依旧会出现相关问题，当方程个数很多时，求解就会变慢。
我们甚至需要用矩阵来求解。
线性回归注意事项