任何一门机器学习的课,第一个接触的算法多半都是线性回归。这篇文章简单总结了相关的两个算法——最小二乘法和梯度下降法,以及它们的步骤,并用Python实现了相关算法。
步骤如下:
-
首先用随机函数构造数据,在这里我构造了一百组数据。
-
建立线性模型y=wx+by=wx+by=wx+b。
-
分别用最小二乘法和梯度下降法训练模型,并与流行的机器学习第三方库得出的结果做对比。
-
绘制样本点和预测的直线。
数据准备
方便起见,这里直接用numpy.random生成随机数作为数据,让y和x保持一定关系并添加噪声。
arr = []
for i in range(100):
x = np.random.rand()
y = 1.5 * x + 0.1 + np.random.rand() - 0.5
arr.append((x, y, x * y, x * x))
df = pd.DataFrame(arr, columns=['x', 'y', 'x*y', 'x*x'])
在这里,令y=1.5x+0.1y=1.5x+0.1y=1.5x+0.1并加上扰动项。
最小二乘法
相信大家对最小二乘法并不陌生,在高中数学里就已经多次接触过。在这里不过多说明原理,实现很简单,根据公式即可。
w=∑xy−nxˉyˉ∑x2−nxˉ2b=yˉ−wxˉ w=\frac{\sum xy-n\bar{x}\bar{y}}{\sum x^2-n\bar{x}^2}\\\\ b=\bar{y}-w\bar{x} w=∑x2−nxˉ2∑xy−nxˉyˉb=yˉ−wxˉ
Python实现:
# 最小二乘法
# 计算均值及其它变量
x_mean = np.mean(df['x'])
y_mean = np.mean(df['y'])
xy_sum = np.sum(df['x*y'