python机器学习手写算法系列——线性回归

最新推荐文章于 2025-11-04 21:04:12 发布

原创

最新推荐文章于 2025-11-04 21:04:12 发布 · 8.4w 阅读

227

769 ·

CC 4.0 BY-SA版权

文章标签：

#线性回归 #Python #算法

本系列另一篇文章《决策树》
https://blog.youkuaiyun.com/juwikuang/article/details/89333344

本文源代码：
https://github.com/juwikuang/machine_learning_step_by_step

最近我发现我之前写的一篇文章《一个公式告诉你为什么程序员要转算法工程师》
http://blog.youkuaiyun.com/juwikuang/article/details/73057194
有很多人访问。我想，很多程序员和我当初一样，想从程序员转算法工程师。

说说我当初为什么会想到升级成算法工程师。记得三年前，我还在印孚瑟斯（Infosys），我们的CFO非常自豪的宣布公司已经成功的让专科生的比例提高了，让本科生的比例降低了。我作为一个本科程序员，听了十分难受。当然，公司这样做是为了利润，也合理合法。换了我是CFO，我也会这样做，不过，我应该不会像他一样大声说。有些事，可以做，不能说。

后来，机缘巧合，我学习了机器学习，走上了算法工程师这条路。当时我学机器学习，是从吴恩达（Andrew Ng）的Coursera课程开始的。很多人和我一样，也是开了这门课，开始机器学习的。这门课挺好，可惜开发语言用了Octave，以至于我每次写作业，都很痛苦，因为我还要学Octave语言，而且这东西学了也没啥用。另外，这门课是英语的，只有少数人能看懂。

本文的目的，就是从最基本，最简单的机器学习算法讲起，手把手的教你实现这个算法。一边编程，一边就明白这个算法的原理了。我本人也是程序员转的算法工程师，我们的强项就是编程，弱项就是数学。我针对这个特点，专门做了以下教程。

言归正传。首先我们看看线性回归在整个机器学习里的位置。

从机器学习到线性回归

线性回归在整个机器学习

今天，我们只关注机器学习到线性回归这条线上的概念。别的以后再说。为了让大家听懂，我这次也不查维基百科了，直接按照自己的理解用大白话说，可能不是很严谨。

机器学习就是机器可以自己学习，而机器学习的方法就是利用现有的数据和算法，解出算法的参数。从而得到可以用的模型。

监督学习就是利用已有的数据（我们叫X，或者特征），和数据的标注（我们叫Y），找到x和y之间的对应关系，或者说是函数f。

回归分析是一种因变量为连续值得监督学习。

线性回归是一种x和y之间的关系为线性关系的回归分析。 $y=a_1x_1+a_2x_2+b$ ，这个叫线性关系。如果这里出现了 $x^2$ , $l o g (x)$ , $s i n (x)$ 之类的，那就不是线性关系了。

一元线性回归说的是，自变量x是一个纯量（scalar）。scalar类型的变量，是不可再分的。

我希望你能说明白这些概念的关系。不过，我自己也是花了很久才了解清楚的。如果你没听明白，也没关系。毕竟都是概念，没什么实际的例子，也很难理解。等你看完了本文，了解了一元线性回归。回过头来再看这些概念，就能更好的理解了。

问题

这里，我们的问题是，找出算法工程师和程序员之间的工资关系。这里直接给出北京，上海，杭州，深圳，广州的工资。

城市	x-程序员工资	y-算法工程师工资
北京	1.3854	2.1332
上海	1.2213	2.0162
杭州	1.1009	1.9138
深圳	1.0655	1.8621
广州	0.09503	1.8016

把他们用图打出来看看他们之间的关系。

程序员和算法工程师工资

由图可见，他们之间大致是一个线性关系，这时候，我们就可以试着用一元线性回归去拟合（fit）他们之间的关系。

数学模型

一元线性回归公式

以下是公式
$y = a x + b + ε$

y 为应变量 dependent variable
x 为自变量 independent variable
a 为斜率 coeffient
b 为截距 intercept
ε （读作epsilon）为误差，正态分布
线性回归的目标是，找到一组a和b，使得ε最小
$\hat{y}=ax+b$
$ε=y-\hat{y}$

$\hat{y}$ 读作y hat，也有人读作y帽子。这里的帽子一般表示估计值，用来区别真实值y。

下图可以更好的帮助你理解。

一元线性回归
（图片来自互联网）

黑色的点为观测样本，即 $y = a x + b + ε$ 。

x红色的线为回归线，即 $\hat{y}=ax+b$ 。

x蓝色的线段为误差，即 $ε=y-\hat{y}$

方差 - 损失函数 Cost Function

在机器学习中，很多时候，我们需要找到一个损失函数。有了损失函数，我们就可以经过不断地迭代，找到损失函数的全局或者局部最小值（或者最大值）。损失函数使得我们的问题转化成数学问题，从而可以用计算机求解。在线性回归中，我们用方差作为损失函数。我们的目标是使得方差最小。

下面的表格解释了什么是方差。

其中SSE(Sum of Square Error)是总的方差，MSE（Mean Square Error）是方差的平均值。

而这里的损失函数，用的是0.5 * MSE。即：

$J(a,b)=\frac{1}{2n}\sum_{i=0}^{n}(y_i−\hat{y}_i )^2$

记住，这里的损失函数是针对参数a和b的函数，y和 $\hat{y}$

最低0.47元/天解锁文章

36 条评论

寻觅那宇宙 2022.05.03
感谢大佬！优质内容！关注了！

June_Pyt 2022.03.28
很喜欢这篇文章呀，感觉讲的很明白，想继续学习下去了。

gotobackto 2021.03.09
Python机器学习实训营（2020版）视频教程分享网盘地址：https://pan.baidu.com/s/1H9yFSmUKfsxF0jcQDy6fxA 提取码: 6wnb

gotobackto 2021.03.08
Python机器学习实训营视频教程（2020版）网盘地址：https://pan.baidu.com/s/1uFp-DbhhjzJAhshpv9wuGA 提取码: bx14 备用地址（腾讯微云）：https://share.weiyun.com/ZzvqU5O5 密码：her5fa

搬运工学黛玛 2020.11.04
广州的开发工资九百块应该是九千多

织网者Eric 2020.10.28
今天看了scikit-learn的源代码，它的LinearRegression用的是Normal Equation，而不是梯度下降。（所以，它也没有学习率这些参数。用点我忽视了。）scikit-learn里面的梯度下降的线性回归应该是SGDRegressor。

织网者Eric 2020.10.18
现在不敢修改文章，代码地址为： https://github.com/EricWebsmith/machine_learning_from_scrach

x117193 2020.10.17
训练到一次，五次，一百次的图像怎么输出的
- 织网者Eric回复x117193 2020.10.18
  https://github.com/EricWebsmith/machine_learning_from_scrach
- 织网者Eric回复x117193 2020.10.18
  https://github.com/EricWebsmith/machine_learning_from_scrach

2Deeper 2020.10.12
很棒，吴恩达老师课程有的编程语言还是不去学了吧[face]monkey:2.gif[/face]
- Rae tree回复2Deeper 2020.10.16
  https://www.kesci.com/home/column/5dd7524c83b6ff002c786fff 吴恩达老师的机器学习配套练习还是看这个好点